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本 书 是 普通 高 等 教育 "十 二 五 ”国家 级 规划 教材 (计算 机 系统 结构 》( 套 书 ) 中 的 一 册 ,是 
《计算 机 系统 结构 教程 (第 2 版 )》( 清 华 大 学 出 版 社 ) 的 配套 教材 。 

计算 机 系统 结构 是 计算 机 专业 及 相关 专业 的 一 门 重要 的 专业 课程 。 本 书 是 专门 为 该 课 
程 编写 的 辅导 书 , 既 可 作为 该 课程 的 教学 参考 书 , 也 可 作为 自学 该 课程 的 辅导 书 , 还 可 作为 
计算 机 专业 硕士 研究 生 人 学 考试 的 复习 指导 书 。 

全 书 共有 14 章 , 各 章 内 容 如 下 。 

第 1 章 讲述 计算 机 系统 结构 的 概念 以 及 系统 结构 和 并 行 性 的 发 展 ,并 介绍 定量 分 析 基 础 。 

第 2 章 是 指令 系统 的 设计 ,讲述 计算 机 指令 系统 设计 的 各 个 方面 。 

第 3 章 是 流水 线 技术 ,讲述 流水 线 的 基本 概念 ,分 类 和 性 能 分 析 、 非 线性 流水 线 的 调度 ， 
介绍 流水 线 中 的 相关 和 冲突 问题 及 其 解决 方法 ,并 讨论 流水 线 的 实现 。 

第 4 章 是 向 量 处 理 机 ,讲述 向 量 处理 机 的 结构 、 特 点 和 性 能 评价 。 

第 5 章 和 第 6 章 分 别 讲述 如 何 用 硬件 和 软件 的 方法 来 开发 指令 级 并 行 。 

第 7 章 是 存储 系统 ,讲述 Cache 的 基本 知识 以 及 提高 Cache 性 能 的 方法 ,并 对 并 行 主 存 
和 虚拟 存储 器 做 了 简要 的 讨论 。 

第 8 章 是 输入 输出 系统 ,讲述 总 线 及 其 与 CPU/ 存 储 器 的 连接 .通道 处 理 机 及 其 流量 分 
析 , 并 详细 论述 了 廉价 磁盘 元 余 阵列 RAID。 

第 9 章 是 互连网 络 ,讲述 互 连 函数 .互连网 络 的 特性 参数 .静态 互连网 络 ,动态 互连网 络 
以 及 消息 传递 机 制 等 。 

第 10 章 是 多 处 理 机 ,讲述 对 称 式 共 享 存 储 器 系统 结构 、 分 布 式 共享 存储 器 系统 结构 、 多 
Cache 一 致 性 .同步 .同时 多 线程 以 及 MPP。 

第 11 章 是 多 核 架 构 与 编程 ,讲述 Intel x86 和 ARM11 MPCore 多 核 架 构 以 及 基于 多 核 
的 并 行程 序 设计 。 

第 12 章 是 机 群 系统 ,讲述 机 群 的 结构 、 软 件 模型 以 及 机 群 的 分 类 。 

第 13 章 是 阵列 处 理 机 ,讲述 阵列 处 理 机 的 操作 模型 结构 和 特点 以 及 并 行 算法 。 

第 14 章 是 数据 流 计算 机 ,讲述 数据 流 计算 机 模型 .数据 流程 序 图 和 数据 流 语言 .静态 数 
据 流 计算 机 结构 以 及 动态 数据 流 计 算 机 结构 。 

每 一 章 都 由 4 节 组 成 ,分 别 是 基本 要 求 与 难点 、 知 识 要 点 、 习 题 以 及 题解 。 知 识 要 点 给 
出 了 各 章 的 精华 和 要 点 。 习 题 的 类 型 有 概念 题 、 选 择 题 .填空 题 . 简 答题 和 应 用 题 。 对 于 应 
用 题 , 书 中 给 出 了 详细 的 求解 过 程 。 

本 书 概 念 清晰 ,重点 难点 突出 ,覆盖 面 广 , 题 型 多 样 ,是 一 本 很 有 用 的 学 习 辅导 书 。 
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第 1 章 计算 机 系统 结构 的 基础 知识 


1.1 基本 要 求 与 难点 


1.1.1 基本 要 求 


(1) 掌握 计算 机 系统 结构 的 基本 概念 ,如 : 计算 机 系统 的 多 级 层次 结构 ,虚拟 机 ,计算 
机 系统 结构 的 定义 ,透明 性 ,系列 机 等 。 

(2) 理解 计算 机 系统 的 多 级 层次 结构 。 

(3) 掌握 计算 机 系统 结构 .计算 机 组 成 和 计算 机 实现 的 定义 ,了 解 其 关系 。 

(4) 了 解 计算 机 系统 结构 的 分 类 方法 。 

(5) 掌握 计算 机 系统 设计 的 定量 原理 ,能 熟练 地 应 用 Amdahl 定律 和 CPU 性 能 公式 进 
行 定量 分 析 。 

(6) 理解 进行 计算 机 系统 设计 的 3 种 主要 方法 ,重点 掌握 * 由 中 间 开 始 ” 的 设计 方法 。 

(7) 理解 进行 计算 机 系统 性 能 评测 的 基准 测试 程序 法 ,了 解 如 何 进行 计算 机 系统 性 能 
的 比较 。 

(8) 理解 冯 。 诺 依 曼 结构 的 特点 及 其 改进 。 

(9) 掌握 实现 软件 移植 的 3 种 方法 ,理解 系列 机 的 概念 及 其 根本 特征 。 

(10) 理解 并 行 性 的 定义 以 及 并 行 性 的 不 同等 级 ,掌握 提高 并 行 性 的 3 种 技术 途径 。 

(11) 了 解 单机 系统 中 和 多 机 系统 中 并 行 性 的 发 展 。 


1.1.2 难点 
(1) 计算 机 系统 结构 .计算 机 组 成 和 计算 机 实现 三 者 的 定义 与 关系 。 如 何 判断 某 种 技 


术 是 属于 哪个 方面 的 ? 如 何 判断 其 透明 性 ? 
(2) Amdahl 定律 和 CPU 性 能 公式 ,如何 应用 它们 进行 定量 分 析 ? 





1.2 知识 要 点 


1.2.1 计算 机 系统 结构 的 基本 概念 


1. 计算 机 系统 的 层次 结构 
可 以 把 计算 机 系统 按 功 能 划分 成 多 级 层次 结构 : 微 程序 机 器 级 ,传统 机 器 语言 机 器 级 ， 
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操作 系统 机 器 级 ,汇编 语言 机 器 级 ,高 级 语言 机 器 级 ,应 用 语言 机 器 级 等 。 在 这 6 级 层次 中 ， 
最 下 面 的 两 级 机 器 是 用 硬件 /固件 实现 的 , 称 为 物理 机 ; 而 上 面 4 层 一 般 是 由 软件 实现 的 ， 
称 为 虚拟 机 。 

各 机 器 级 的 实现 主要 靠 翻译 或 解释 ,或 两 者 的 结合 。 一 般 来 说 ,上 述 6 级 层次 中 的 下 面 
3 级 是 用 解释 实现 ,而 上 面 3 级 则 是 用 翻译 的 方法 实现 。 翻 译 是 先 用 转换 程序 把 高 一 级 机 
器 上 的 程序 转换 为 低 一 级 机 器 上 等 效 的 程序 ,然后 再 在 这 低 一 级 机 器 上 运行 ,实现 程序 的 功 
能 。 解 释 则 是 对 于 高 一 级 机 器 上 的 程序 中 的 每 一 条 语句 或 指令 ,都 是 转 去 执行 低 一 级 机 器 
上 的 一 段 等 效 程序 ,执行 完 后 , 青 去 高 一 级 机 器 取 下 一 条 语句 或 指令 ,再 进行 解释 执行 ,如 此 
反复 ,直到 解释 执行 完整 个 程序 。 


2. 计算 机 系统 结构 的 定义 


计算 机 系统 结构 (Computer Architecture) 的 经 典 定义 是 1964 年 Amdahl 在 介绍 
IBM360 系统 时 提出 的 : 计算 机 系统 结构 是 指 传统 机 器 程序 员 所 看 到 的 计算 机 属性 , 即 概念 
性 结构 与 功能 特性 。 计 算 机 系统 结构 的 实质 是 确定 计算 机 系统 中 软 硬 件 的 界面 ,界面 之 上 
是 软件 实现 的 功能 ,界面 之 下 是 硬件 和 固件 实现 的 功能 。 

传统 机 器 级 所 存在 的 差别 对 于 高 级 语言 程序 员 来 讲 是 “看 不 见 ” 的 。 在 计算 机 技术 中 ， 
把 这 种 本 来 存在 的 事物 或 属性 ,但 从 某 种 角度 看 又 好 像 不 存在 的 概念 称 为 透明 性 。 

在 J.L. Hennessy 和 D. A. Patterson 编写 的 Computer Architecture: A Quantitative 
Approach 一 书 中 ,把 系统 结构 定义 为 囊括 计算 机 设计 的 3 个 方面 : 指令 系统 结构 ,组 成 , 硬 
件 。 我 们 不 妨 将 之 理解 为 广义 的 系统 结构 定义 。 


3. 计算 机 组 成 和 计算 机 实现 


计算 机 组 成 指 的 是 计算 机 系统 结构 的 逻辑 实现 ,包含 物理 机 器 级 中 的 数据 流 和 控制 流 
的 组 成 以 及 逻辑 设计 等 。 它 着 眼 于 物理 机 器 级 内 各 事件 的 排序 方式 与 控制 方式 各 部 件 的 
功能 以 及 各 部 件 之 间 的 联系 。 

计算 机 实现 指 的 是 计算 机 组 成 的 物理 实现 ,包括 处 理 机 、 主 存 等 部 件 的 物理 结构 ,器 件 
的 集成 度 和 速度 ,模块 , 择 件 、 底 板 的 划分 与 连接 ,信号 传输 ,电源 ,冷却 及 整 机 装配 技术 等 。 
它 着 眼 于 器 件 技术 和 微 组 装 技术 ,其 中 ,器 件 技术 在 实现 技术 中 起 主导 作用 。 

具有 相同 系统 结构 的 计算 机 因为 速度 、 价 格 等 方面 要 求 的 不 同 ,可 以 采用 不 同 的 计算 机 
组 成 。 而 同一 种 计算 机 组 成 又 可 以 采用 多 种 不 同 的 计算 机 实现 。 系 列 机 的 出 现 充 分 反映 了 
这 一 点 。 系 列 机 是 指 由 同一 厂家 生产 的 具有 相同 系统 结构 但 具有 不 同 组 成 和 实现 的 一 系列 
不 同型 号 的 计算 机 。 


4. 计算 机 系统 结构 的 分 类 


1) Flynn 分 类 法 

Flynn 分 类 法 是 按照 指令 流 和 数据 流 的 多 倍 性 进行 分 类 。Flynn 分 类 法 中 定义 : 
指令 流 : 计算 机 执行 的 指令 序列 。 

数据 流 : 由 指令 流 调 用 的 数据 序列 。 

多 售 性 : 在 系统 最 受 限 的 部 件 上 ,同时 处 于 同一 执行 阶段 的 指令 或 数据 的 最 大 数目 。 
Flynn 分 类 法 把 计算 机 系统 的 结构 分 为 以 下 4 类 。 
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(1) 单 指令 流 单数 据 流 (Single Instruction stream Single Data stream,SISD); 

(2) 单 指 令 流 多 数据 流 (Single Instruction stream Multiple Data stream ,SIMD) ; 

(3) 多 指令 流 单 数据 流 (Multiple Instruction stream Single Data stream, MISD); 

(4) 多 指令 流 多 数据 流 (Multiple Instruction stream Multiple Data stream, MIMD)。 

SISD 是 传统 的 顺序 处 理 计 算 机 ; SIMD 以 阵列 处 理 机 为 代表 ; MISD 只 是 一 种 人 为 的 
划分 ,目前 没有 实际 的 机 器 ; 多 处 理 机 属于 MIMD 结构 。 

2) 冯 氏 分 类 法 

冯 氏 分 类 法 是 用 系统 的 最 大 并 行 度 对 计算 机 进行 分 类 。 最 大 并 行 度 Pu。 定义 为 : 计算 
机 系统 在 单位 时 间 内 能 够 处 理 的 最 大 的 二 进 制 位 数 。 

按照 这 种 分 类 法 ,可 以 把 计算 机 分 成 以 下 4 类 具有 不 同 最 大 并 行 度 的 计算 机 系统 结构 : 
字 串 位 串 , 字 串 位 并 , 字 并 位 串 , 字 并 位 并 。 

3) Handler 分 类 法 

这 种 分 类 方法 把 计算 机 的 硬件 结构 分 成 3 个 层次 ,并 考虑 它们 的 可 并 行 -流水 处 理 
程度 。 

ti( 系 统 型 号 ) = (kXk’,d Xd’,wXw’) 

这 3 个 层次 是 : 

(1) 程序 控制 部 件 (PCU ) 的 个 数 Re; 

(2) 算术 逻辑 部 件 (ALU) 或 处 理 部 件 (PE) 的 个 数 di 

(3) 每 个 算术 逻辑 部 件 包 含 基 本 逻辑 线路 (ELC) 的 套数 mw。 


1.2.2 计算 机 系统 的 设计 


1. 计算 机 系统 设计 的 定量 原理 


1) 以 经 常 性 事件 为 重点 

这 是 计算 机 设计 中 最 重要 、 最 广泛 采用 的 设计 原则 。 它 是 指 要 对 经 常 发 生 的 情况 采用 
优化 方法 的 原则 ,因为 这 样 能 得 到 更 多 的 总 体 上 的 改进 。 这 里 的 优化 是 指 分 配 更 多 的 资源 、 
达到 更 高 的 性 能 等 。 

2) Amdahl 定律 

Amdahl 定律 告诉 我 们 : 当 对 一 个 系统 中 的 某 个 部 件 进行 改进 后 ,所 能 获得 的 整个 系统 
性 能 的 提高 , 受 限 于 该 部 件 的 执行 时 间 占 总 执行 时 间 的 百分比 。 它 可 以 用 来 具体 地 计算 : 
当 对 计算 机 系统 中 的 某 个 部 分 进行 改进 后 ,所 能 获得 的 加 速 比 的 大 小 。 

这 个 加 速 比 的 大 小 与 两 个 因素 有 关 。 一 个 是 可 改进 比例 , 记 为 Fe。 另 一 个 是 可 改进 部 
件 改进 以 后 性 能 提高 的 倍数 ,简称 部 件 加速 比 , 记 为 Se。 改 进 后 程序 的 总 执行 时 间 为 : 

Ns ml -Pet 其 ] 

其 中 ,To 为 改进 前 整个 程序 的 执行 时 间 ,1 一 Fe 为 不 可 改进 比例 。 

改进 后 ,整个 系统 的 加 速 比 为 : 


一 有 
一 工 





本 Fe 
(1 Fe + 
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当 Se~co 时 , 则 5S, 二 1/(1 一 Fe)。 即 如 果 只 针对 整个 任务 的 一 部 分 进行 改进 和 优化 , 那 
么 所 获得 的 加 速 比 不 超过 1/ (1 一 Fe)。 

3) CPU 性 能 公式 

执行 一 个 程序 所 需 的 CPU 时 间 可 以 按 下 式 计算 : 

CPU 时 间 = IC Xx CPI x 时 钟 周期 时 间 

其 中 ,IC 为 所 执行 的 指令 条 数 。CPI(Cycles Per Instruction) 为 每 条 指令 的 平均 时 钟 周 

期 数 , 它 可 以 根据 下 式 计 算得 出 : 
CPI = 执行 程序 所 需 的 时 钟 周期 数 / 所 执行 的 指令 条 数 

CPU 的 性 能 取决 于 以 下 3 个 参数 。 

(1) 时 钟 周期 时 间 : 取决 于 硬件 实现 技术 和 计算 机 组 成 ; 

(2) CPI: 取决 于 计算 机 组 成 和 指令 系统 的 结构 ; 

(3) IC: 取决 于 指令 系统 的 结构 和 编译 技术 。 

CPU 设计 中 还 经 常用 到 下 面 计算 CPU 时 钟 周期 总 数 的 方法 : 


CPU 时钟 二 > CCPL x 1C) 
其 中 ,n 为 指令 的 种 数 ,IC; 为 第 i 种 指令 出 现 的 次 数 ,CPI; 为 第 i 种 指令 所 需 的 平均 时 
钟 周期 数 。 这 时 的 CPU 性 能 公式 为 : 
(cpPr x IC) . 
‘ 时 钟 周期 数 _ 污 x IC， 
CPI 各 让 (cux 愉 ] 


证 1 








CPU 时 间 二 CPU 时 钟 周期 数 x 时 钟 周期 时 间 二 > (CPL x 1C,) x 时 钟 周期 时 间 


其 中 ,(IC;/1C) 反 映 了 第 i 种 指令 在 所 执行 的 指令 总 数 中 所 占 的 比例 。 

4) 程序 的 局 部 性 原理 

程序 的 局 部 性 原理 是 指 : 程序 执行 时 所 访问 的 存储 器 地 址 不 是 随机 分 布 的 ,而 是 相对 
地 簇 聚 。 现 在 常用 的 一 个 经 验 规则 是 : 程序 执行 时 间 的 90% 都 是 在 执行 程序 中 10% 的 
代码 。 

局 部 性 包括 时 间 局 部 性 和 空间 局 部 性 。 时 间 局 部 性 是 指 : 程序 即将 用 到 的 信息 很 可 能 
就 是 目前 正在 使 用 的 信息 。 空 间 局 部 性 是 指 : 程序 即将 用 到 的 信息 很 可 能 与 目前 正在 使 用 
的 信息 在 空间 上 相 邻 或 者 临近 。 


2. 计算 机 系统 设计 者 的 主要 任务 


计算 机 系统 设计 者 的 任务 包括 指令 系统 的 设计 、 数 据 表示 的 设计 、 功 能 的 组 织 、. 逻 辑 设 
计 以 及 其 物理 实现 等 。 设 计 一 个 计算 机 系统 大 致 要 完成 以 下 3 个 方面 的 工作 。 

1) 确定 用 户 对 计算 机 系统 的 功能 、 价 格 和 性 能 的 要 求 

总 的 来 说 ,计算 机 系统 设计 者 的 目标 是 设计 出 能 满足 用 户 的 功能 需求 ,有 较 长 的 生命 周 
期 且 又 具有 很 高 的 性 能 价格 比 的 系统 。 要 考虑 以 下 具体 的 功能 需求 。 

(1) 应 用 领域 。 首 先 要 考虑 的 是 : 是 专用 还 是 通用 ? 是 面向 科学 计算 还 是 面向 商用 处 
理 ? 如 果 是 专用 ,就 需要 对 应 用 领域 进行 深入 的 研究 ,以 确定 什么 样 的 计算 任务 是 关键 的 ， 


人 
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具有 什么 计算 特点 等 ,然后 对 其 进行 优化 设计 。 

(2) 软件 兼容 。 软 件 兼容 是 指 一 台 计 算 机 上 的 程序 不 加 修改 就 可 以 搬 到 另 一 台 计 算 机 
上 正常 运行 。 兼 容 性 方面 的 考虑 对 于 设计 新 的 计算 机 系统 有 很 大 的 影响 。 

(3) 操作 系统 需求 。 

(4) 标准 。 

2) 软 硬 件 功能 分 配 

软件 和 硬件 在 实现 功能 上 是 等 价 的 。 进 行 优化 设计 必须 考虑 软 硬 件 功能 的 合理 分 配 。 
对 于 任何 一 种 功能 来 说 ,用 软件 实现 的 优点 是 设计 相对 容易 、 修 改 简单 ,而 且 可 以 减少 硬件 
成 本 。 但 其 缺点 是 所 实现 的 功能 的 速度 较 慢 。 用 硬件 实现 的 优点 是 速度 快 ,性 能 高 ,但 它 修 
改 困难 ,灵活 性 差 。 所 以 优化 设计 时 要 在 软 硬 件 之 间 进 行 折 中 和 取舍 。 

3) 设计 出 生命 周期 长 的 系统 结构 

一 个 成 功 的 系统 结构 应 该 有 较 长 的 生命 周期 , 它 应 该 能 经 得 住 软 、 硬 件 技术 的 发 展 和 应 
用 的 变化 。 因 此 ,设计 者 要 特别 注意 计算 机 应 用 和 计算 机 技术 的 发 展 趋势 ,设计 出 具有 一 定 
前 脆性 的 系统 结构 ,以 使 得 它 具 有 和 较 长 的 生命 周期 。 


3. 计算 机 系统 设计 的 主要 方法 


从 多 级 层次 结构 出 发 ,计算 机 系统 可 以 有 由 上 往 下 、 由 下 往 上 和 从 中 间 开 始 3 种 不 同 的 
设计 方法 。 

1)“ 由 上 往 下 ?设计 

由 上 往 下 设计 是 先 从 层次 结构 中 的 最 上 面 一 级 开始 ,首先 确定 应 用 级 机 器 的 属性 ,然后 
再 逐 级 往 下 设计 ,每 级 都 考虑 怎样 优化 上 一 级 的 实现 。 这 种 方法 很 适合 于 专用 机 的 设计 ,而 
不 适合 通用 机 的 设计 。 

2)“ 由 下 往 上 ”设计 

这 种 方法 是 从 层次 结构 的 最 下 面 一 级 开始 , 逐 层 往 上 设计 各 层 的 机 器 。 在 硬件 技术 飞 
速 发 展 , 而 软件 技术 发 展 相对 缓慢 的 今天 ,这 种 设计 方法 已 经 难以 适应 计算 机 系统 的 设计 要 
求 , 很 少 被 采用 了 。 

3)“ 由 中 间 开 始 ” 设 计 

软 、 硬 件 设计 分 离 和 脱节 是 上 述 “ 由 上 往 下 ”和 “由 下 往 上 ”设计 方法 的 主要 缺点 。 要 解 
决 这 个 问题 ,就 必须 综合 考虑 软 、 硬 件 的 分 工 , 从 中 间 开 始 设计 。 这 里 “中间 ?是 指 层次 结构 
中 的 软 硬 件 的 交界 面 , 即 在 传统 机 器 级 与 操作 系统 机 器 级 之 间 。 采 用 这 种 方法 时 ,首先 要 进 
行 软 、 硬 件 功能 分 配 ,确定 好 这 个 界面 。 然 后 从 这 个 界面 开始 ,软件 设计 者 开始 往 上 设计 操 
作 系统 汇编、 编译 系统 等 ,硬件 设计 者 开始 往 下 设计 传统 机 器 级 、 微 程序 机 器 级 、 数 字 逻 辑 
级 等 。 软 件 和 硬件 并 行 设计 可 以 缩短 设计 周期 ,设计 过 程 中 可 以 交流 协调 ,是 一 种 交互 式 
的 ,很 好 的 设计 方法 。 


1.2.3 计算 机 系统 的 性 能 评测 


1. 执行 时 间 和 香 吐 率 
如 何 评 测 一 台 计 算 机 的 性 能 ,与 测试 者 看 问题 的 角度 有 关 。 对 于 桌面 台式 计算 机 来 说 ， 


6 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





用 户 关心 的 是 执行 单个 程序 的 时 间 ,而 对 于 数据 处 理 中 心 的 管理 员 来 说 ,他 所 关心 的 则 是 吞 
吐 率 。 
在 比较 不 同 的 设计 方案 时 ,经常 需要 对 两 台 计算 机 的 性 能 进行 比较 。 假 设 这 两 台 计 算 
机 为 X 和 Y, 通 常 “X 的 性 能 是 Y 的” 倍 ? 是 指 : 
1 
) 二 执行 时 间 Y 性 能 _ 性 能 x 
执行 时 间 X 1 ”性能 y 
性 能 x 
目前 广泛 采用 的 一 致 和 可 靠 的 性 能 评价 方法 ,是 使 用 真实 程序 的 执行 时 间 来 衡量 。 
我 们 常用 “CPU 时 间 ” 来 计算 程序 的 执行 时 间 ,“CPU 时 间 ” 是 指 CPU 执行 所 给 定 的 程 
序 所 花费 的 时 间 , 不 包含 1/O 等 待 时 间 以 及 运行 其 他 程序 的 时 间 。CPU 时 间 还 可 细 分 为 用 
户 CPU 时 间 及 系统 CPU 时 间 , 前 者 表示 用 户 程 序 所 耗费 的 CPU 时 间 , 后 者 表示 用 户 程 序 
执行 期 间 操作 系统 所 耗费 的 CPU 时 间 。 


2. 基准 测试 程序 


用 于 测试 和 比较 性 能 的 基准 测试 程序 的 最 佳 选 择 是 真实 应 用 程序 。 

为 了 能 比较 全 面 地 反映 计算 机 在 各 个 方面 的 处 理性 能 ,通常 采用 整套 测试 程序 。 这 组 
程序 称 为 基准 测试 程序 套件 , 它 是 由 各 种 不 同 的 真实 应 用 程序 构成 的 。 基 准 测试 程序 套件 
的 目标 是 尽 可 能 全 面 地 反映 两 台 计 算 机 的 相对 性 能 。 

目前 最 成 功 和 最 常见 的 测试 程序 套件 是 SPEC 系列 , 它 是 由 美国 的 标准 性 能 测试 公司 
(Standard Performance Evaluation Corporation) 于 20 世纪 80 年 代 末 创建 的 。 桌 面 计算 机 
的 基准 测试 程序 套件 可 以 分 为 两 大 类 : 处 理 器 性 能 测试 程序 和 图 形 性 能 测试 程序 。SPEC 
最 早 创建 的 SPEC89 是 用 于 测试 处 理 器 性 能 的 。SPEC89 后 来 演化 出 了 4 个 版 本 : 
SPEC92 .SPEC95 .SPEC2000 和 SPEC CPU2006 。 


3. 性 能 比较 


为 了 能 更 好 地 比较 不 同 计算 机 的 性 能 ,可 以 采用 以 下 3 种 方法 。 

1) 总 执行 时 间 

我 们 可 以 直接 用 计算 机 执行 所 有 测试 程序 的 总 时 间 来 进行 比较 ,也 可 以 采用 平均 执行 
时 间 来 代替 总 执行 时 间 。 平 均 执 行 时 间 是 各 测试 程序 执行 时 间 的 算术 平均 值 , 即 : 

= #2 1 

其 中 ,T; 是 第 i 个 测试 程序 的 执行 时 间 .n 是 测试 程序 组 中 程序 的 个 数 。 

如 果 各 程序 在 测试 程序 组 中 所 占 的 比重 不 同 ,就 可 以 用 加 权 执 行 时 间 来 比较 。 加 权 执 
行 时 间 是 各 测试 程序 执行 时 间 的 加 权 平 均值 , 即 : 














A Wi Ch 
i=1 


其 中 , W; 是 第 i 个 测试 程序 在 测试 程序 组 中 所 占 的 比重 , > W， 二 1。T; 是 该 程序 的 执 
行 时 间 。 
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2) 调和 平均 值 法 
如 果 性 能 是 用 速度 (如 MFLOPS) 表 示 , 则 可 以 采用 调和 平均 值 法 进行 比较 。 其 公 
式 为 : 








He (1.2) 
名 元 之 了 
其 中 ,R; 表 示 执 行 第 i 个 程序 的 速度 ,Ri 二 1/T;,T; 为 第 i 个 程序 的 执行 时 间 。 
如 果 考 虑 工作 负荷 中 各 程序 不 会 以 相等 比例 出 现 , 则 可 以 使 用 加 权 调 和 平均 值 公式 : 
H, = $2 由 ] 三 (Bwr) C3 
3) 几何 平均 值 法 
几何 平均 值 法 的 基本 思想 来 源 于 性 能 规格 化 的 方法 , 即 以 某 台 计算 机 的 性 能 作为 参考 
标准 ,其 他 计算 机 性 能 则 除 以 该 参考 标准 而 获得 一 个 比值 。 其 公式 为 : 


Ve /Te = [下 去 (1.4) 


式 中 ,R; 表 示 执 行 第 i 个 程序 的 速度 ,R; 二 1/T;, 了 为 连 乘 符号 。 
如 果 考 虑 工作 负荷 中 各 程序 不 会 以 相等 比例 出 现 , 则 可 以 使 用 加 权 几 何平 均值 公式 : 


Gn = TCR = (RD)™ X (Re)™ X… Xx (R,)™ (1.5) 
i=1 


1.2.4 计算 机 系统 结构 的 发 展 


1. 冯 ，… 诺 依 曼 结构 及 其 改进 


最 早 的 存储 程序 式 计算 机 是 美国 数学 家 汉 ，。 诺 依 曼 (von Neumann) 等 人 于 1946 年 总 
结 并 提出 来 的 , 它 由 运算 器 ,控制 器 、 存 储 器 \ 输 入 设备 和 输出 设备 5 部 分 构成 。 我 们 经 常 称 
之 为 妈 ，。 诺 依 曼 结 构 计 算 机 。 虽 然 与 冯 。 诺 依 曼 结构 相 比 ,现代 的 计算 机 系统 结构 已 经 发 
生 了 很 大 变化 ,但 就 其 结构 原理 来 说 , 占 主流 地 位 的 仍 是 改进 了 的 冯 。 诺 依 曼 结构 计算 机 。 

冯 ，。 诺 依 曼 结构 的 主要 特点 如 下 。 

(1) 计算 机 以 运算 器 为 中 心 ,采用 集中 控制 。 

(2) 在 存储 器 中 ,指令 和 数据 同等 对 待 。 

(3) 存储 器 是 按 地 址 访问 、 按 顺序 线性 编 址 的 一 维 结构 。 

(4) 指令 的 执行 是 顺序 的 , 即 一 般 是 按照 指令 在 存储 器 中 存放 的 顺序 执行 。 

(5) 指令 由 操作 码 和 地 址 码 组 成 。 操 作 码 指明 本 指令 的 操作 类 型 ,地 址 码 指明 操作 数 
地 址 和 存放 运算 结果 的 地 址 。 操 作 数 的 类 型 由 操作 码 决定 。 

(6) 指令 和 数据 均 以 二 进 制 编码 表示 ,采用 二 进 制 运算 。 

后 来 的 计算 机 针对 汉 “。 诺 依 曼 结构 的 不 足 之 处 进行 了 不 断 的 改进 ,在 系统 结构 方面 有 
了 很 大 的 进展 。 主 要 包括 以 下 几 个 方面 。 

1) 对 输入 /输出 方式 的 改进 

人 们 先后 提出 了 多 种 输入 /输出 方式 ,包括 程序 中 断 .DMA、 通 道 .外 围 处 理 机 等 。 这 是 
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把 越 来 越 多 的 输入 /输出 管理 工作 从 CPU 中 分 离 出 来 "下放 ?给 新 设置 的 硬件 去 完成 。 

2) 采用 并 行 处 理 技术 

在 不 同 的 级 别 采用 并 行 技术 ,例如 微 操作 级 、 指 令 级 、 线 程 级 、 进 程 级 ,任务 级 等 。 先 后 
出 现 了 向 量 计算 机 、 阵 列 处 理 机 、 多 处 理 机 、MPP( 大 规模 并 行 处 理 机 ) 等 各 种 并 行 处 理 计 
算 机 。 

3) 存储 器 组 织 结 构 的 发 展 

在 CPU 中 设置 了 通用 寄存 器 组 ,并 在 CPU 和 主 存 之 间 设 置 了 高 速 缓冲 存储 器 Cache。 

4) 指令 系统 的 发 展 

发 展 方向 有 两 个 ,一 个 是 朝 复杂 指令 集 计算 机 (Complex Instruction Set Computer， 
CISC) 的 方向 发 展 ,把 越 来 越 多 的 功能 交 由 硬件 实现 。 另 一 个 方向 是 朝 精 简 指 令 系 统 的 方 
向 发 展 , 只 设置 使 用 频 度 高 、 功 能 简单 的 指令 。1979 年 ,D. A. Patterson 等 人 提出 了 精 减 指 
令 集 计算 机 (Reduced Instruction Set Computer, RISC) 的 思想 。 


2. 软件 对 系统 结构 的 影响 


软件 对 系统 结构 有 多 方面 的 影响 。 下 面 只 讨论 系统 结构 设计 要 注意 解决 的 软件 可 移植 
性 问题 。 可 移植 性 是 指 一 个 软件 可 以 不 经 修改 或 者 只 需 少量 修改 就 可 以 由 一 台 计 算 机 移植 
到 另 一 台 计算 机 上 和 运行。 差别 只 是 执行 时 间 的 不 同 。 在 这 种 情况 下 ,我们 称 这 两 台 计 算 机 
是 软件 兼容 的 。 实 现 可 移植 性 的 常用 方法 有 3 种 : 统一 高 级 语言 ,系列 机 ,模拟 与 仿真 。 

1) 统一 高 级 语言 

如 果 各 计算 机 能 采用 同一 种 高 级 语言 ,那么 用 这 种 语言 编写 的 应 用 软件 和 系统 软件 的 
可 移植 问题 就 解决 了 。 然 而 ,到 目前 为 止 , 还 没有 一 种 高 级 语言 对 各 种 应 用 是 真正 通用 的 。 

2) 系列 机 

系列 机 能 较 好 地 解决 软件 开发 要 求 系统 结构 相对 稳定 与 器 件 、 硬 件 技术 迅速 发 展 的 矛 
盾 。 系 列 机 的 软件 兼容 有 4 种 : 向 上 兼容 ,向 下 兼容 ,向 前 兼容 ,向 后 兼容 。 向 上 (下 ) 兼 容 
指 的 是 按 某 档 计算 机 编制 的 程序 ,不 加 修改 就 能 运行 于 比 它 高 ( 低 ) 档 的 计算 机 。 向 后 (前 ) 
兼容 是 指 按 某 个 时 期 投入 市 场 的 某 种 型 号 计算 机 编制 的 程序 ,不 加 修改 地 就 能 运行 于 在 它 
之 后 (前 ) 投 入 市 场 的 计算 机 。 向 后 兼容 是 肯定 要 做 到 的 , 它 是 系列 机 的 根本 特征 。 

兼容 机 : 由 不 同 公司 厂家 生产 的 具有 相同 系统 结构 的 计算 机 。 

3) 模拟 和 仿真 

模拟 和 仿真 是 实现 软件 (二 进 制 代码 ) 可 移植 性 的 两 种 常用 方法 。 

模拟 是 指 用 软件 的 方法 在 一 台 现 有 的 计算 机 ( 称 为 宿主 机 Host) 上 实现 另 一 台 计 算 机 
( 称 为 虚拟 机 ) 的 指令 系统 。 通 常用 解释 的 方法 来 实现 。 除 了 模拟 虚拟 机 的 指令 系统 外 ,还 
要 模拟 其 存储 系统 、1/O 系统 、 操 作 系 统 等 。 这 种 方法 的 缺点 是 运行 速度 较 慢 , 性 能 较 差 。 

仿真 是 指 用 一 台 现 有 计算 机 ( 称 为 宿主 机 ) 上 的 征程 序 去 解释 实现 另 一 台 计 算 机 ( 称 为 
目标 机 ?的 指令 系统 。 这 个 微 程序 称 为 仿真 微 程序 。 

仿真 和 模拟 的 主要 区 别 在 于 解释 执行 所 用 的 语言 。 仿 真是 用 微 程序 解释 执行 ,而 模拟 
则 是 用 机 器 语言 程序 解释 执行 。 因 此 仿真 的 运行 速度 比 模拟 方法 的 快 ,但 仿真 只 能 在 系统 
结构 差距 不 大 的 计算 机 之 间 使 用 。 为 了 取长补短 ,可 以 将 这 两 种 方法 混合 使 用 。 


入 
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3. 器 件 发 展 对 系统 结构 的 影响 


器 件 是 推动 计算 机 系统 结构 不 断 发 展 的 最 活跃 的 因素 ,这 是 因为 器 件 是 组 成 计算 机 系 
统 的 最 基本 的 单元 。 摩 尔 定 律 指 出 : 集成 电路 芯片 上 所 集成 的 晶体 管 数 目 每 隔 18 个 月 就 
翻 一 番 。2003 年 以 前 CPU 在 速度 上 的 提高 也 是 如 此 , 即 主 频 是 每 隔 18 个 月 就 翻 一 番 。 这 
使 得 越 来 越 多 的 功能 可 以 在 一 块 芯片 上 实现 ,而 且 芯片 的 性 能 /价格 比 也 越 来 越 高 。 

高 性 能 、 低 价格 CPU 蕊 片 的 出 现 使 得 大 规模 并 行 处 理 系统 的 实现 成 为 可 能 。 


4. 应 用 对 系统 结构 的 影响 


应 用 对 系统 结构 的 发 展 有 着 重要 的 影响 。 特 别 是 有 些 领域 中 的 应 用 问题 要 求 计算 机 有 
非常 高 的 计算 速度 。 如 果 已 有 的 计算 机 不 能 满足 这 些 要 求 , 就 需要 设计 和 采用 新 的 系统 结 
构 。 因 此 ,应 用 需求 是 促使 计算 机 系统 结构 发 展 的 最 根本 的 动力 。 

针对 特定 的 一 种 应 用 领域 设计 的 专用 计算 机 的 性 能 往往 会 比 通用 计算 机 高 很 多 。 为 了 
满足 有 些 领 域 的 超 高 速 计算 性 能 的 要 求 ,往往 需要 探索 和 采用 新 的 系统 结构 ,人 们 往往 不 异 
一 切 代价 来 达到 其 超 高 性 能 的 目标 。 过 去 在 这 些 计算 机 中 所 采用 的 系统 结构 新 技术 ,后 来 
都 逐渐 下 移 到 了 小 型 和 微型 通用 计算 机 中 。 


1.2.5 计算 机 系统 结构 中 并 行 性 的 发 展 


1. 并 行 性 的 概念 


所 谓 并 行 性 ,是 指 计算 机 系统 在 同一 时 刻 或 者 同一 时 间 间 隔 内 进行 多 种 运算 或 操作 。 
只 要 在 时 间 上 相互 重生 ,就 存在 并 行 性 。 它 包括 同时 性 与 并 发 性 两 种 含义 。 

同时 性 一 一 两 个 或 两 个 以 上 的 事件 在 同一 时 刻 发 生 。 

并 发 性 一 一 两 个 或 两 个 以 上 的 事件 在 同一 时 间 间 隔 内 发 生 。 

计算 机 系统 中 的 并 行 性 有 不 同 的 等 级 。 从 处 理 数据 的 角度 来 看 ,并 行 性 等 级 从 低 到 高 
可 分 为 以 下 几 种 。 

(1) 字 串 位 串 : 每 次 只 对 一 个 字 的 一 位 进行 处 理 。 这 是 最 基本 的 串 行 处 理 方式 ,不 存 
在 并 行 性 。 

(2) 字 串 位 并 : 同时 对 一 个 字 的 全 部 位 进行 处 理 , 不 同 字 之 间 是 串 行 的 。 具 备 初 步 的 
并 行 性 。 这 种 并 行 性 也 称 为 位 级 并 行 。 

(3) 字 并 位 串 : 同时 对 许多 字 的 同一 位 ( 称 为 位 片 ) 进 行 处 理 。 

(4) 全 并 行 : 同时 对 许多 字 的 全 部 位 或 部 分 位 进行 处 理 。 这 是 最 高 一 级 的 并 行 。 

从 执行 程序 的 角度 来 看 ,并 行 性 等 级 从 低 到 高 可 分 为 以 下 5 种 。 

1) 指令 内 部 并 行 

这 是 指 单 条 指令 中 各 微 操 作 之 间 的 并 行 。 

2) 指令 级 并 行 

指令 级 并 行 (Instruction Level Parallelism,ILP) 是 指 并 行 或 并 发 地 执行 两 条 或 两 条 以 
上 的 指令 。 
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流水 线 技术 使 得 多 条 指令 能 重 琶 地 执行 .提高 了 CPU 执行 程序 的 吞吐 率 。 加 上 RISC 
方法 ,计算 机 达到 了 每 个 时 钟 周期 完成 一 条 指令 的 性 能 。 超 标量 的 方法 则 更 进一步 ,使 得 计 
算 机 能 每 个 时 钟 周期 启动 多 条 指令 ,并 能 由 多 条 流水 线 在 单 周 期 内 产生 多 个 运算 结果 。 

3) 线程 级 并 行 

线程 级 并 行 (Thread Level Parallelism,TLP) 是 指 并 行 执行 两 个 或 两 个 以 上 的 线程 。 

线程 是 进程 内 的 一 个 相对 独立 的 、 可 独立 调度 和 指派 的 执行 单元 。 多 线程 既 能 提高 程 
序 的 并 发 和 并 行程 度 ,又 能 减少 操作 系统 的 开销 。 它 与 多 核 技 术 相 结合 ,能 达到 很 好 的 开发 
并 行 性 的 效果 。 

4) 任务 级 或 过 程 级 并 行 

这 是 指 并 行 执行 两 个 或 两 个 以 上 的 过 程 或 任务 (程序 段 ) ,以 子 程序 或 进程 为 调度 单元 。 

5) 作业 或 程序 级 并 行 

这 是 指 并 行 执行 两 个 或 两 个 以 上 的 作业 或 程序 。 

在 一 个 计算 机 系统 中 ,可 以 采取 多 种 提高 并 行 性 的 措施 。 既 可 以 有 数据 处 理 方面 的 并 
行 性 ,又 可 以 有 执行 程序 方面 的 并 行 性 。 当 并 行 性 提高 到 一 定 级 别 时 , 则 称 之 为 进入 并 行 处 
理 领 域 。 


2. 提高 并 行 性 的 技术 途径 


计算 机 系统 中 提高 并 行 性 的 措施 有 很 多 ,就 其 基本 思想 而 言 ,可 归纳 成 以 下 3 条 途径 。 

(1) 时 间 重 释 。 在 并 行 性 概念 中 引入 时 间 因 素 ,让 多 个 处 理 过 程 在 时 间 上 相互 错开 , 轮 
流 重 全 地 使 用 同一 套 硬件 设备 的 各 个 部 分 ,以 加 快 硬件 周转 而 赢得 速度 。 这 种 途径 原则 上 
不 要 求 重复 设置 硬件 设备 。 流 水 线 技术 是 时 间 重 释 的 典型 实例 。 

(2) 资源 重复 。 在 并 行 性 概念 中 引入 空间 因素 ,以 数量 取胜 。 通 过 重复 设置 硬件 资源 ， 
大 幅度 地 提高 计算 机 系统 的 性 能 。 随 着 硬件 价格 的 降低 ,这 种 途径 得 到 了 越 来 越 广泛 的 
应 用 。 

(3) 资源 共享 。 这 是 一 种 软件 方法 , 它 使 多 个 任务 按 一 定时 间 顺 序 轮流 使 用 同一 套 硬 
件 设备 。 多 道 程序 分 时 系统 就 是 遵循 这 一 途径 而 产生 的 。 资 源 共享 既 降 低 了 成 本 ,又 提高 
了 计算 机 设备 的 利用 率 。 

在 现在 的 计算 机 系统 中 ,经 常 是 同时 运用 时 间 重 县 和 资源 重复 。 


3. 单机 系统 中 并 行 性 的 发 展 


在 发 展 高 性 能 单 处 理 机 过 程 中 ,起 主导 作用 的 是 时 间 重 全 原理 。 实 现时 间 重 全 的 基础 
是 “部 件 功能 专用 化 ”, 即 把 一 件 工 作 按 功 能 分 割 为 若干 相互 联系 的 部 分 ,把 每 一 部 分 指定 给 
专门 的 部 件 完成 ,然后 按时 间 重 释 原 理 把 各 部 分 的 执行 过 程 在 时 间 上 重 符 起 来 ,使 所 有 部 件 
依次 分 工 完成 一 组 同样 的 工作 。 

在 单 处 理 机 中 ,资源 重复 原理 的 运用 也 已 经 十 分 普遍 。 例 如 ,多 体 存 储 器 和 多 操作 部 件 
都 是 成 功 应 用 的 结构 形式 。 在 多 操作 部 件 处 理 机 中 ,只 要 指令 所 需 的 操作 部 件 空 闪 ,就 可 以 
开始 执行 这 条 指令 (如 果 操 作 数 已 准备 好 ) 。 这 就 实现 了 指令 级 并 行 。 如 果 更 进一步 ,设置 
许多 相同 的 处 理 单元 ,让 它们 在 同一 个 控制 器 的 指挥 下 ,按照 同一 条 指令 的 要 求 , 对 向 量 或 
数组 的 各 元 素 同时 进行 同一 操作 ,就 形成 了 阵列 处 理 机 (有 的 书 中 称 之 为 并 行 处 理 机 ) 。 


人 
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4. 多 机 系统 中 并 行 性 的 发 展 


多 机 系统 也 遵循 时 间 重 稚 .资源 重复 .资源 共享 原理 ,向 着 3 种 不 同 的 多 处 理 机 方向 发 
展 。 它 们 是 : 同 构 型 多 处 理 机 , 异 构 型 多 处 理 机 和 分 布 式 系统 。 

可 以 用 耦合 度 来 反映 多 机 系统 中 各 计算 机 之 间 物 理 连 接 的 紧密 程度 和 交互 作用 能 力 的 
强 弱 。 紧 密 耦 合 系统 又 称 直接 耦合 系统 。 在 这 种 系统 中 ,计算 机 之 间 的 物理 连接 的 频带 较 
高 ,一 般 是 通过 总 线 或 高 速 开 关 互 连 , 可 以 共享 主 存 。 松 散 耦 合 系统 又 称 间 接 耦 合 系统 ,一 
般 是 通过 通道 或 通信 线路 实现 计算 机 之 间 的 互 连 , 可 以 共享 外 存 设 备 (磁盘 、 磁 带 等 )。 计 算 
机 之 间 的 相互 作用 是 在 文件 或 数据 集 一 级 上 进行 。 

异 构 型 多 处 理 机 系统 由 多 个 不 同类 型 .至少 担 负 不 同 功能 的 处 理 机 组 成 ,它们 按照 作业 
要 求 的 顺序 ,利用 时 间 重 麦 原理 ,依次 对 它们 的 多 个 任务 进行 加 工 , 各 自 完成 规定 的 功能 动 
作 。 同 构 型 多 处 理 机 系统 由 多 个 同类 型 或 至 少 担负 同等 功能 的 处 理 机 组 成 ,它们 同时 处 理 
同一 作业 中 能 并 行 执行 的 多 个 任务 。 

最 早 的 多 机 系统 并 不 是 为 了 提高 速度 ,而 是 为 了 构成 容错 系统 。 如 果 提 高 对 互联 网 络 
的 要 求 ,使 其 具有 一 定 的 灵活 性 、 可 靠 性 和 可 重 构 性 , 则 可 将 其 发 展 成 一 种 可 重 构 系统 。 在 
这 种 系统 中 ,平时 几 台 计算 机 都 正常 工作 , 像 通 常 的 多 处 理 机 系统 一 样 。 但 一 旦 发 生 故 障 ， 
系统 就 会 重新 组 织 , 降 低档 次 继续 运行 ,直到 排除 故障 为 止 。 


5. 并 行 机 的 发 展 变化 


(1) 并 行 机 的 萌芽 阶段 (1964 一 1975 年 ); 

(2) 向 量 机 的 发 展 和 易 盛 阶段 (1976 一 1990 年 ); 
(3) MPP 出 现 和 蓬勃 发 展 阶段 (1990 一 1995 年 ); 
(4) 各 种 体系 结构 并 存 阶段 (1995 一 2000 年 ); 
(5) 机 群 医 勃 发 展 阶段 (2000 年 以 后 ) 。 


习 题 
1. 概念 题 
【 题 1.1】 解释 下 列 名 词 
多 级 层次 结构 虚拟 机 解释 翻译 
计算 机 系统 结构 计算 机 组 成 计算 机 实现 透明 性 
系列 机 最 大 并 行 度 Amdahl 定律 CPI 
程序 的 局 部 性 原理 时 间 局 部 性 空间 局 部 性 CISC 
RISC 软件 兼容 向 上 兼容 向 下 兼容 
向 前 兼容 向 后 兼容 兼容 机 摩尔 定律 
模拟 仿真 并 行 性 并 发 性 


同时 性 时 间 重 从 资源 重复 资源 共享 
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耦合 度 紧密 耦合 系统 松散 耦合 系统 。 异 构 型 多 处 理 机 系统 

同 构 型 多 处 理 机 系统 

2. 选择 题 

【是 1.2】 直接 执行 微 指 令 的 是 ( x 

A. 汇编 程序 B. 编译 程序 C. 硬件 D. 微 指 令 程序 

【是 1. 3】 对 汇编 语言 程序 员 不 透明 的 是 ( js 

A. 程序 计数 器 B. 主 存 地 址 寄存 器 C. 条 件 码 寄 存 器 。 D. 指令 寄存 器 

【是 1.4】“ 由 中 间 开 始 设计 ”的 中间” 目前 多 数 是 在 ( ) 之 间 。 

A. 传统 机 器 级 与 操作 系统 之 间 B. 传统 机 器 级 与 微 程 序 级 之 间 

C. 操作 系统 与 汇编 语言 级 之 间 D. 微 程序 级 与 汇编 语言 级 之 间 

【 题 1.5】 最 早 的 冯 。 诺 依 曼 结构 的 计算 机 是 以 ( ) 为 中 心 的 。 

A. 运算 器 B. 控制 器 C. 存储 器 D. 1/O 设备 

【 题 1.6】 从 计算 机 系统 结构 来 看 ,机 器 语言 程序 员 看 到 的 机 器 属性 是 ( ) 。 

A. 计算 机 软件 所 要 完成 的 功能 B. 计算 机 硬件 的 全 部 组 成 

C. 编程 要 用 到 的 硬件 组 织 D. 计算 机 各 部 件 的 硬件 实现 

【 题 1.7】 不 同系 列 的 机 器 之 间 ,实现 可 移植 性 的 途径 不 包括 ( Ns 

A. 采用 统一 的 高 级 语言 B. 采用 统一 的 汇编 语言 

C. 模拟 D. 仿真 

【 题 1. 8〗 利用 时 间 重 生 原 理 实现 并 行 处 理 的 是 ( )s 

A. 流水 处 理 机 B. 多 处 理 机 C. 阵列 处 理 机 D. 机 群 系统 

【 题 1. 9〗 多 处 理 机 实现 的 并 行 主 要 是 ( 和 

A. 指令 级 并 行 B. 任务 级 并 行 C. 操作 级 并 行 D. 操作 步骤 的 并 行 

【 题 1. 10〗 计算 机 系统 结构 不 包括 ( is 

A. 信息 保护 B. 主 存 速 度 C. 数据 表示 D. 机 器 工作 状态 

3. 填空 题 

【 题 1. 11〗 常见 的 计算 机 系统 结构 分 类 法 有 3 种 : 

【 题 1. 12】 汉 氏 分 类 法 用 系统 的 最 大 并 行 度 对 计算 机 进行 分 类 大 多 数 传统 的 位 并 行 
单 处 理 机 属 字 位 方式 。 

【 题 1.13】 由 软件 实现 的 机 器 称 为 。 在 一 个 计算 机 系统 中 ,低层 机 器 的 属性 
对 高 层 机 器 的 程序 员 往 往 是 的 。 

【 题 1. 14】 是 促使 计算 机 系统 结构 发 展 最 重要 的 因素 ， 是 促使 计算 
机 系统 结构 发 展 最 根本 的 动力 ,而 是 促使 计算 机 系统 结构 发 展 最 活跃 的 因素 。 

【 题 1.15】〗】 程序 的 局 部 性 包含 程序 的 局 部 性 和 程序 的 局 部 性 。 

【 题 1.16】 从 多 级 层次 结构 出 发 ,计算 机 系统 可 以 有 和 
3 种 不 同 的 设计 方法 。 


【十 1. 17〗 实现 程序 可 移植 性 的 主要 途径 有 3 和 
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【 题 1.18】 为 了 在 不 同系 统 结构 的 机 器 之 间 实 现 软件 移植 ,可 采用 或 

方法 。 
【 题 1. 19】 软件 兼容 有 和 4 种 。 其 中 ， 
是 软件 兼容 的 根本 特征 。 

【 题 1. 20〗 广义 来 说 ,并 行 性 既 包 含 性 ,又 包含 性 。 

【 题 1. 21〗 从 执行 程序 的 角度 看 ,并 行 性 等 级 从 低 到 高 可 分 为 并 行 、 
并 行 、 并 行 、 并 行 和 并 行 。 

【 题 1. 22〗 从 处 理 数据 的 角度 ,并 行 性 等 级 从 低 到 高 可 以 分 为 
和 4 种 。 

【 题 1. 23〗 计算 机 系统 中 提高 并 行 性 的 技术 途径 有 和 三 
种 。 在 高 性 能 单 处 理 机 的 发 展 中 ,起 主导 作用 的 是 这 个 途径 , 它 的 实现 基础 
是 8 

【 题 1.24】 多 机 系统 的 耦合 度 可 以 分 为 “和 





【 题 1. 25】 同 构 列 多 处 理 机 和 异 构 更 多 处 理 机 所 采用 的 提高 并 行 性 的 技术 途径 分 别 
是 和 





4. 问答 题 


【 题 1.26】 试用 实例 说 明 计算 机 系统 结构 .计算 机 组 成 与 计算 机 实现 之 间 的 相互 

【 题 1.27】 Flynn 分 类 法 是 根据 什么 对 计算 机 系统 的 结构 进行 分 类 ? 并 分 为 哪 4 类? 

【 题 1. 28〗 汉 氏 分 类 法 是 根据 什么 对 计算 机 进行 分 类 ? 把 计算 机 分 成 哪 4 类 ? 

【 题 1. 29〗 Handler 分 类 法 把 计算 机 的 硬件 结构 分 成 哪 3 个 层次 ? 

【 题 1.30〗 计算 机 系统 设计 中 经 常 使 用 的 4 个 定量 原理 是 什么 ? 并 说 出 它们 的 
含义 。 

【 题 1.31】 计算 机 系统 “由 中 间 开 始 设 计 ”, 其 中间 ” 指 的 是 什么 地 方 ? 这 样 设计 的 好 
处 是 什么 ? 

【 题 1. 32】 硬件 和 软件 在 什么 意义 上 是 等 效 的 ? 在 什么 意义 上 是 不 等 效 的 ? 

【 题 1.33】〗 存储 程序 计算 机 在 系统 结构 上 的 主要 特点 是 什么 ? 

【 题 1.34】 系列 机 概念 对 计算 机 发 展 有 什么 意义 ? 系列 机 软件 兼容 的 基本 要 求 是 什 
么 ? 列 出 几 个 你 所 熟知 的 系列 机 。 


5. 应 用 题 


【是 1. 35】 假设 有 一 个 计算 机 系统 分 为 两 级 ,第 一 级 指令 比 第 二 级 指令 在 功能 上 强 X 
倍 , 即 一 条 第 一 级 指令 能 够 完成 X 条 第 二 级 指令 的 工作 , 且 一 条 第 一 级 指令 需要 YY 条 第 二 
级 指令 解释 。 对 于 一 段 在 第 一 级 执行 时 间 为 N 的 程序 ,在 第 二 级 上 的 一 段 等 效 程序 需要 执 
行 多 少时 间 ? 

【是 1.36】 某 台 主 频 为 400MHz 的 计算 机 执行 标准 测试 程序 ,程序 中 指令 类 型 .执行 
数量 和 平均 时 钟 周 期 数 如 表 1. 1 所 示 。 
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表 1.1 指令 类 型 .执行 数量 和 平均 时 钟 周期 数 














指令 类 型 指令 执行 数量 平均 时 钟 周期 数 
整数 45 000 1 
数据 传送 75 000 2 
浮 点 8000 4 
分 支 1500 2 








求 该 计算 机 的 有 效 CPI、MIPS 和 程序 执行 时 间 。 
【 题 1.37】 假设 处 理 机 的 时 钟 频 率 为 40MHz, 运 行 的 测试 程序 共有 200 000 条 指令 ， 
由 4 类 指令 组 成 。 已 知 各 类 指令 的 CPI 和 各 类 指令 条 数 的 比例 如 表 1. 2 所 示 。 


表 1.2 各 类 指令 的 CPI 和 各 类 指令 条 数 的 比例 














指令 类 型 CPI 指令 条 数 比 例 
算术 人 逻辑 运算 指令 1 60% 
Cache 命中 的 load/store 指令 2 18% 
转移 类 指令 4 12% 
Cache 不 命中 的 load/store 指令 8 10% 








计算 处 理 机 运行 该 测试 程序 的 CPI 和 MIPS。 
【 题 1.38】 已 知 4 个 程序 在 3 台 计算 机 上 的 执行 时 间 如 表 1. 3 所 示 。 

















表 1.3 执行 时 间 
程序 执行 时 间 
计算 机 A 计算 机 B 计算 机 C 
程序 1 1 10 20 
程序 2 1000 100 20 
程序 3 500 1000 50 
程序 4 100 800 100 











假设 4 个 程序 都 执行 100 000 000 条 指令 ,计算 这 3 台 计 算 机 中 每 台 机 器 上 每 个 程序 的 
MIPS 速率 。 分 别 计算 它们 的 算术 平均 值 、 几 何平 均值 和 调和 平均 值 。 

【 题 1.39】 计算 机 系统 有 3 个 部 件 可 以 改进 ,这 3 个 部 件 的 加 速 比 如 下 : 

部 件 加 速 比 S; 二 30; 部 件 加 速 比 S, 二 20; 部 件 加 速 比 S: 二 10 

(1) 如 果 部 件 1 和 部 件 2 的 可 改进 比例 为 30% ,那么 当 部 件 3 的 可 改进 比例 为 多 少时 ， 
系统 的 加 速 比 才 可 以 达到 10? 

(2) 如 果 3 个 部 件 的 可 改进 比例 分 别 为 30%、30% 和 20% ,3 个 部 件 同 时 改进 ,那么 系 
统 中 不 可 改进 部 分 的 执行 时 间 在 总 执行 时 间 中 占 的 比例 是 多 少 ? 

【是 1.40】 将 计算 机 系统 中 某 一 功能 的 处 理 速 度 加 快 20 倍 , 但 该 功能 的 处 理 时 间 仅 
占 整 个 系统 运行 时 间 的 40% , 则 采用 此 增强 功能 方法 后 ,能 使 整个 系统 的 性 能 提高 多 少 ? 

【是 1.41】 某 计算 机 系统 采用 浮 点 运算 部 件 后 ,使 浮 点 运算 速度 提高 到 原来 的 20 倍 ， 
而 系统 运行 某 一 程序 的 整体 性 能 提高 到 原来 的 5 倍 , 试 计算 该 程序 中 浮 点 操作 所 占 的 比例 。 

【是 1. 42】 假设 我 们 考虑 条 件 分 支 指令 的 两 种 不 同 设计 方法 : 

(1) CPUA: 通过 比较 指令 设置 条 件 码 ,然后 测试 条 件 码 进行 分 支 。 
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(2) CPUa : 在 分 支 指令 中 包括 比较 过 程 。 

在 这 两 种 CPU 中 ,条 件 分 支 指 令 都 占用 2 个 时 钟 周期 ,而 所 有 其 他 指令 占用 1 个 时 钟 
周期 。 对 于 CPUA ,执行 的 指令 中 分 支 指 令 占 20%; 由 于 每 条 分 支 指令 之 前 都 需要 有 比较 
指令 ,因此 比较 指令 也 占 20% 。 由 于 CPUA 在 分 支 时 不 需要 比较 ,因此 CPUs 的 时 钟 周期 时 
间 是 CPUA 的 1.25 倍 。 问 : 哪 一 个 CPU 更 快 ? 如 果 CPUs 的 时 钟 周期 时 间 只 是 CPUA 的 


1.1 售 , 哪 一 个 CPU 更 快 呢 ? 
【是 1. 43〗 假设 某 应 用 程序 中 有 4 类 操作 ,通过 改进 ,各 操作 获得 不 同 的 性 能 提高 。 


具体 数据 如 表 1.4 所 示 。 


表 1.4 各 操作 获得 的 性 能 提高 














操作 类 型 程序 中 的 数量 改进 前 的 执行 时 间 改进 后 的 执行 时 间 
( 百 万 条 指令 ) (周期 (周期 ) 
操作 1 10 2 1 
操作 2 30 20 15 
操作 3 35 10 3 
操作 4 15 4 1 











(1) 改进 后 ,各 类 操作 的 加 速 比分 别 是 多 少 ? 

(2) 各 类 操作 单独 改进 后 ,程序 获得 的 加 速 比 分 别 是 多 少 ? 

(3) 4 类 操作 均 改进 后 ,整个 程序 的 加 速 比 是 多 少 ? 

【 题 1.44】 某 台 处 理 机 的 时 钟 频率 为 11MHz, 执 行 测试 程序 的 速率 为 10MIPS ,假设 
每 次 存储 器 存 取 需 1 个 时 钟 周期 的 时 间 。 

(1) 求 处 理 机 的 CPI 值 。 

(2) 假设 将 处 理 机 的 时 钟 频率 提高 到 30MHz, 但 存储 器 的 工作 速率 不 变 , 这 使 得 每 次 
存储 器 存 取 需 2 个 时 钟 周期 。 如 果 测 试 程序 中 30% 的 指令 需要 1 次 访 存 ,5% 的 指令 需要 2 
次 访 存 ,其 他 指令 不 需要 访 存 , 求 该 测试 程序 在 改进 后 的 处 理 机 上 执行 的 MIPS。 

【 题 1.45】 假设 浮 点 数 指令 FP 的 比例 为 30% ,其 中 , 浮 点 数 平方 根 FPSQR 占 全 部 指 
令 的 比例 为 4% ,FP 操作 的 CPI 为 5,FPSQR 操作 的 CPI 为 20, 其 他 指令 的 平均 CPI 为 
1.25。 现 有 两 种 改进 方案 ,第 一 种 是 把 FPSQR 操作 的 CPI 减 至 3, 第 二 种 是 把 所 有 的 FP 
操作 的 CPI 减 至 3, 试 比较 两 种 方案 对 系统 性 能 的 提高 程度 。 

【 题 1.46】 若 在 整个 测试 程序 的 执行 时 间 中 , 求 浮 点 数 平方 根 FPSQR 的 操作 占 
10%。 现 有 两 种 改进 方案 : 

(1) 采用 FPSQR 硬件 ,使 其 速度 加 快 到 10 倍 ; 

(2) 使 所 有 浮 点 数 指令 FP 速度 加 快 到 4 倍 ,并 设 FP 指令 占 整个 程序 执行 时 间 的 40%。 
试 比较 两 种 方案 的 优 劣 。 


题 解 


1. 概念 题 


【 题 1.1】 解释 下 列 名 词 
多 级 层次 结构 一 一 按照 计算 机 语言 从 低级 到 高 级 的 次 序 ,把 计算 机 系统 按 功 能 划分 成 
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多 级 层次 结构 ,每 一 层 以 一 种 不 同 的 语言 为 特征 。 这 些 层次 依次 为 : 微 程序 机 器 级 ,传统 机 
器 语言 机 器 级 ,汇编 语言 机 器 级 ,高 级 语言 机 器 级 ,应 用 语言 机 器 级 等 。 

虚拟 机 一 一 用 软件 实现 的 机 器 。 

解释 一 一 对 于 高 一 级 机 器 上 的 程序 中 的 每 一 条 语句 或 指令 ,都 是 转 去 执行 低 一 级 机 器 
上 的 一 段 等 效 程序 。 执 行 完 后 ,再 去 高 一 级 机 器 取 下 一 条 语句 或 指令 ,再 进行 解释 执行 ,如 
此 反复 ,直到 解释 执行 完整 个 程序 。 

翻译 一 一 先 用 转换 程序 把 高 一 级 机 器 上 的 程序 转换 为 低 一 级 机 器 上 等 效 的 程序 ,然后 
再 在 这 低 一 级 机 器 上 运行 ,实现 程序 的 功能 。 

计算 机 系统 结构 一 一 指 传统 机 器 语言 程序 员 所 看 到 的 计算 机 属性 , 即 概念 性 结构 与 功 
能 特性 。 

计算 机 组 成 一 一 指 的 是 计算 机 系统 结构 的 逻辑 实现 ,包含 物理 机 器 级 中 的 数据 流 和 控 
制 流 的 组 成 以 及 逻辑 设计 等 。 

计算 机 实现 一 一 指 的 是 计算 机 组 成 的 物理 实现 ,包括 处 理 机 、 主 存 等 部 件 的 物理 结构 ， 
器 件 的 集成 度 和 速度 ,模块 .插件 底板 的 划分 与 连接 ,信号 传输 ,电源 ,冷却 及 整 机 装配 技 
术 等 。 

透明 性 一 一 在 计算 机 技术 中 ,把 这 种 本 来 存在 的 事物 或 属性 ,但 从 某 种 角度 看 又 好 像 不 
存在 的 概念 称 为 透明 性 。 

系列 机 一 一 由 同一 厂家 生产 的 具有 相同 系统 结构 ,但 具有 不 同 组 成 和 实现 的 一 系列 不 
同型 号 的 计算 机 。 

最 大 并 行 度 一 一 计算 机 系统 在 单位 时 间 内 能 够 处 理 的 最 大 的 二 进 制 位 数 。 

Amdahl 定律 一 一 当 对 一 个 系统 中 的 某 个 部 件 进行 改进 后 ,所 能 获得 的 整个 系统 性 能 
的 提高 , 受 限 于 该 部 件 的 执行 时 间 占 总 执行 时 间 的 百分比 。 

CPI 一 一 每 条 指令 的 平均 执行 时 钟 周期 数 。 

程序 的 局 部 性 原理 一 一 程序 执行 时 所 访问 的 存储 器 地 址 不 是 随机 分 布 的 ,而 是 相对 地 
簇 聚 。 

时 间 局 部 性 一 一 程序 即将 用 到 的 信息 很 可 能 就 是 目前 正在 使 用 的 信息 。 

空间 局 部 性 一 一 程序 即将 用 到 的 信息 很 可 能 与 目前 正在 使 用 的 信息 在 空间 上 相 邻 或 者 
临近 。 

CISC 一 一 复杂 指令 集 计 算 机 。 

RISC 一 一 精 减 指 令 集 计 算 机 。 

软件 兼容 一 一 一 个 软件 可 以 不 经 修改 或 者 只 需 少 量 修改 就 可 以 由 一 台 计 算 机 移植 到 另 
一 台 计 算 机 上 和 运行。 差别 只 是 执行 时 间 的 不 同 。 

向 上 兼容 一 一 按 某 档 计 算 机 编制 的 程序 ,不 加 修改 就 能 运行 于 比 它 高 档 的 计算 机 。 

向 下 兼容 一 一 按 某 档 计 算 机 编制 的 程序 ,不 加 修改 就 能 运行 于 比 它 低档 的 计算 机 。 

向 前 兼容 一 一 按 某 个 时 期 投入 市 场 的 某 种 型 号 计算 机 编制 的 程序 ,不 加 修改 地 就 能 运 
行 于 在 它 之 前 投入 市 场 的 计算 机 。 

向 后 兼容 一 一 按 某 个 时 期 投入 市 场 的 某 种 型 号 计算 机 编制 的 程序 ,不 加 修改 地 就 能 运 
行 于 在 它 之 后 投入 市 场 的 计算 机 。 

兼容 机 一 一 由 不 同 公司 厂家 生产 的 具有 相同 系统 结构 的 计算 机 。 
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摩尔 定律 一 一 摩尔 定律 指出 集成 电路 芯片 上 所 集成 的 晶体 管 数目 每 隔 18 个 月 就 翻 
一 番 。 
模拟 一 一 用 软件 的 方法 在 一 台 现 有 的 计算 机 ( 称 为 宿主 机 Host) 上 实现 另 一 台 计 算 机 
( 称 为 虚拟 机 ) 的 指令 系统 。 

仿真 一 一 用 一 台 现 有 计算 机 ( 称 为 宿主 机 ) 上 的 微 程序 去 解释 实现 男 一 台 计 算 机 ( 称 为 
目标 机 ) 的 指令 系统 。 

并 行 性 一 一 计算 机 系统 在 同一 时 刻 或 者 同一 时 间 间 隔 内 进行 多 种 运算 或 操作 。 只 要 在 
时 间 上 相互 重 等 ,就 存在 并 行 性 。 它 包括 同时 性 与 并 发 性 两 种 含义 。 

并 发 性 一 一 两 个 或 两 个 以 上 的 事件 在 同一 时 间 间 隔 内 发 生 。 

同时 性 一 一 两 个 或 两 个 以 上 的 事件 在 同一 时 刻 发 生 。 

时 间 重 侄 一 一 在 并 行 性 概念 中 引入 时 间 因素 ,让 多 个 处 理 过 程 在 时 间 上 相互 错开 ,轮流 
重 倒 地 使 用 同一 套 硬件 设备 的 各 个 部 分 ,以 加 快 硬件 周转 而 赢得 速度 。 

资源 重复 一 一 在 并 行 性 概念 中 引入 空间 因素 ,以 数量 取胜 。 通 过 重复 设置 硬件 资源 ,大 
幅度 地 提高 计算 机 系统 的 性 能 。 

资源 共享 一 一 这 是 一 种 软件 方法 , 它 使 多 个 任务 按 一 定时 间 顺 序 轮流 使 用 同一 套 硬件 
设备 。 

耦合 度 一 一 反映 多 机 系统 中 各 计算 机 之 间 物 理 连 接 的 紧密 程度 和 交互 作用 能 力 的 
强 弱 。 

紧密 耦合 系统 一 一 又 称 直接 耦合 系统 。 在 这 种 系统 中 ,计算 机 之 间 的 物理 连接 的 频带 
较 高 ,一 般 是 通过 总 线 或 高 速 开关 互 连 , 可 以 共享 主 存 。 

松散 耦合 系统 一 一 又 称 间接 耦合 系统 ,一 般 是 通过 通道 或 通信 线路 实现 计算 机 之 间 的 
互 连 , 可 以 共享 外 存 设备 (磁盘 、 磁 带 等 )。 计 算 机 之 间 的 相互 作用 是 在 文件 或 数据 集 一 级 上 
进行 。 

异 构 型 多 处 理 机 系统 一 一 由 多 个 不 同类 型 .至 少 担负 不 同 功能 的 处 理 机 组 成 ,它们 按照 
作业 要 求 的 顺序 ,利用 时 间 重 又 原 理 , 依 次 对 它们 的 多 个 任务 进行 加 工 ,各 自 完成 规定 的 功 
能 动作 。 

同 构 型 多 处 理 机 系统 一 一 由 多 个 同类 型 或 至 少 担 负 同 等 功能 的 处 理 机 组 成 ,它们 同时 
处 理 同一 作业 中 能 并 行 执 行 的 多 个 任务 。 


2. 选择 题 

【 题 1.2】 答 : C 
【 题 1.3】〗 答 : C 
【 题 1.4】 答 : A 
【 题 1.5】 答 : A 
【 题 1.6】 答 :C 
【 题 1.7】 答 : B 
【 题 1.8】 答 : A 
【 题 1.9】 答 : B 
【是 1.10】 答 : B 
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3. 填空 题 

【 题 1.11】 答 : Flynn 分 类 法 、 冯 氏 分 类 法 、Handler 分 类 法 

【 题 1.12】 答 : 串 .并 

【 题 1.13】 答 : 虚拟 机 器 、 透 明 

【 题 1.14】 答 : 软件 ,应 用 、 器 件 

【 题 1.15】 答 : 时 间 、 空 间 

【 题 1.16】 答 : 由 上 往 下 设计 、 由 下 往 上 设计 、 从 中 间 开 始 设计 

【 题 1.17】 答 : 统一 高 级 语言 .系列 机 、 模 拟 、 仿 真 

【 题 1.18】 答 : 模拟 、 仿 真 

【 题 1.19】 答 : 向 上 兼容 .向 下 兼容 .向 前 兼容 ,向 后 兼容 .向 后 兼容 

【 题 1.20】 答 : 同时 、 并 发 

【 题 1.21】 答 : 指令 内 部 ,指令 级 ,线程 级 并 行 、 任 务 级 或 过 程 级 、 作 业 或 程序 级 
【 题 1.22】 答 : 字 串 位 串 、 字 串 位 并 、 字 并 位 串 、 全 并 行 

【 题 1.23】 答 : 时 间 重 和 .资源 重复 .资源 共享 .时 间 重 释 ,部 件 功能 专用 化 
【 题 1.24】 答 : 松散 耦合 .紧密 耦合 

【 题 1.25〗 答 : 资源 重复 .时 间 重 又 

4. 问答 题 

【 题 1.26】 答 : 如 在 设计 主 存 系 统 时 ,确定 主 存 容量 、 编 址 方式 、 寻 址 范围 等 属于 计算 


机 系统 结构 ; 确定 主 存 周 期 ,逻辑 上 是 否 采用 并 行 主 存 、 兆 辑 设 计 等 属于 计算 机 组 成 ,而 选 
择 存 储 芯 片 类 型 微 组 装 技 术 、 线 路 设计 等 属于 计算 机 实现 。 

计算 机 组 成 是 计算 机 系统 结构 的 逻辑 实现 。 计 算 机 实现 是 计算 机 组 成 的 物理 实现 。 一 
种 系统 结构 可 以 有 多 种 组 成 。 一 种 组 成 可 以 有 多 种 实现 。 

【 题 1.27】 答 : Flynn 分 类 法 是 按照 指令 流 和 数据 流 的 多 倍 性 进行 分 类 。 把 计算 机 系 
统 的 结构 分 为 : 

(1) 单 指令 流 单数 据 流 SISD 

(2) 单 指令 流 多 数据 流 SIMD 

(3) 多 指令 流 单 数据 流 MISD 

(4) 多 指令 流 多 数据 流 MIMD 

【 题 1.28】 答 : 冯 氏 分 类 法 是 用 系统 的 最 大 并 行 度 对 计算 机 进行 分 类 。 把 计算 机 分 成 
4 类 具有 不 同 最 大 并 行 度 的 计算 机 系统 结构 。 

(1) 字 串 位 串 : 这 是 第 一 代 计 算 机 发 展 初期 的 纯 串 行 计算 机 。 

(2) 字 串 位 并 : 这 是 传统 的 单 处 理 机 ,同时 处 理 单个 字 的 多 个 位 。 

(3) 字 并 位 串 : 同时 处 理 多 个 字 的 同一 位 (位 片 ) 。 

(4) 字 并 位 并 : 同时 处 理 多 个 字 的 多 个 位 。 

【 题 1.29】 答 : Handler 分 类 法 把 计算 机 的 硬件 结构 分 成 3 个 层次 ,并 考虑 它们 的 可 
并 行 -流水 处 理 程度 。 这 3 个 层次 是 : 

(1) 程序 控制 部 件 (PCU) 的 个 数 &; 
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(2) 算术 逻辑 部 件 (ALU) 或 处 理 部 件 (PE) 的 个 数 d; 

(3) 每 个 算术 逻辑 部 件 包 含 基 本 逻辑 线路 (ELC) 的 套数 ww。 

【 题 1.30〗 答 : (1) 以 经 常 性 事件 为 重点 。 在 计算 机 系统 的 设计 中 ,对 经 常 发 生 的 情 
况 ,赋予 它 优先 的 处 理 权 和 资源 使 用 权 ,以 得 到 更 多 的 总 体 上 的 改进 。 

(2) Amdahl 定律 。 加 快 某 部 件 执行 速度 所 获得 的 系统 性 能 加 速 比 , 受 限于 该 部 件 在 系 
统 中 所 占 的 重要 性 。 

(3) CPU 性 能 公式 。 

执行 一 个 程序 所 需 的 CPU 时 间 二 ICX CPIX 时 钟 周期 时 间 

(4) 程序 的 局 部 性 原理 。 程 序 在 执行 时 所 访问 地 址 的 分 布 不 是 随机 的 ,而 是 相对 地 
簇 聚 。 

【 题 1.31】 答 :“ 中 间 ? 指 的 是 多 级 层次 结构 中 的 软 硬 件 交 界面 , 即 传统 机 器 级 与 操作 
系统 机 器 级 之 间 。 

这 样 设计 ,能 合理 地 进行 软 硬 件 的 功能 分 配 ,优化 软 硬 件 设计 ,可 为 软件 和 应 用 提供 更 
多 更 好 的 支持 ; 软件 和 硬件 并 行 设计 可 以 缩短 设计 周期 。 

【 题 1.32】 答 : 硬件 和 软件 在 实现 逻辑 功能 上 是 等 效 的。 在 原理 上 ,用 软件 实现 的 功 
能 完全 可 以 用 硬件 或 固件 来 实现 ; 用 硬件 实现 的 功能 也 可 以 用 软件 进行 模拟 完成 。 

但 在 速度 ,价格 、 实 现 的 难 易 程度 上 是 不 同 的。 对 于 任何 一 种 功能 来 说 ,用 软件 实现 的 
优点 是 设计 容易 ,修改 简单 ,而 且 可 以 减少 硬件 成 本 。 但 其 缺点 是 所 实现 的 功能 的 速度 较 
慢 。 用 硬件 实现 的 优点 是 速度 快 ,性 能 高 ,但 它 修改 困难 ,灵活 性 差 。 

【 题 1.33】 答 : 机 器 以 运算 器 为 中 心 。@ 采 用 存储 程序 原理 。 程 序 ( 指 令 ) 和 数据 放 
在 同一 存储 器 中 ,并 且 没 有 对 两 者 加 以 区 分 。 指 令 和 数据 一 样 可 以 送 到 运算 器 进行 运算 , 即 
由 指令 组 成 的 程序 自身 是 可 以 修改 的 。@ 存 储 器 是 按 地 址 访问 的 、 线 性 编 址 的 空间 。@ 控 
制 流 由 指令 流产 生 。@@ 指 令 由 操作 码 和 地 址 码 组 成 。 操 作 码 指明 本 指令 的 操作 类 型 ,地 址 
码 指明 操作 数 和 操作 结果 的 地 址 。@@ 数 据 以 二 进 制 编码 表示 ,采用 二 进 制 运算 。 

【 题 1.34】 答 : 系列 机 可 以 实现 系统 结构 相同 的 计算 机 之 间 的 软件 移植 。 它 较 好 地 解 
决 了 软件 开发 要 求 系统 结构 相对 稳定 与 器 件 、 硬 件 技术 迅 速 发 展 的 矛盾 。 

系列 机 软件 兼容 的 基本 要 求 是 保证 向 后 兼容 ,力争 向 上 兼容 。 

IBM 公司 的 IBM370 系列 ,Intel 公司 的 x86 系列 都 是 较 典型 的 系列 机 。 


5, 应 用 题 


【 题 1. 35】 

解 : 假设 在 第 一 级 上 用 时 间 N 执行 了 该 级 IC 条 指令 。 

对 第 二 级 而 言 , 为 了 完成 IC 条 指令 的 功能 ,第 二 级 指令 的 条 数 为 IC/X。 

为 了 执行 第 二 级 IC/X 条 指令 ,需要 执行 (IC/X) XY 条 第 一 级 的 指令 对 其 进行 解释 ,所 
以 对 于 第 二 级 而 言 ,等 效 程序 的 执行 时 间 是 : 


IC IC N 
T, (时 Xx+ 四 xY]x 


IC 








y 
人 + 去 民 N 
【 题 1. 36】 
解 : (1) CPI 二 (45 000X1 十 75 000X2 十 8000X4 十 1500X2)/129 500 一 1.776 
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(2) MIPS 速率 = f/CPI 一 400/1. 776 一 225. 225MIPS 
(3) 程序 执行 时 间 王 (45 000X1 十 75 000XX2 十 8000X4 十 1500XX2)/400 一 575s 

































































【是 1. 37】 
解 : CPI = 》) (CPL XIC/IC) = 1X0.6+2X0.18+4X0.12+8X0.1= 2.24 
时 钟 频率 40 X10 
MIPS CPIX10" 2.24X10° PB 
【 题 1. 38】 
解 : MIPS 速率 如 表 1.5 所 示 。 
表 1.5 MIPS 速率 
MIPS 速率 
程 序 
计算 机 A 计算 机 B 计算 机 C 
程序 1 100 10 5 
程序 2 0 1 5 
程序 3 0.2 0.1 2 
程序 4 0.125 1 
它们 的 算术 平均 值 .几何 平均 值 和 调和 平均 值 如 表 1.6 所 示 。 
表 1.6 算术 平均 值 .几何 平均 值 和 调和 平均 值 
MIPS 速率 
程 序 
计算 机 A 计算 机 B 计算 机 C 
算术 平均 值 25.3 2.81 3.25 
几何 平均 值 1.19 0.59 2.66 
调和 平均 值 0. 25 0.2 2.1 
【 题 1. 39】 


解 : (1) 在 多 个 部 件 可 改进 的 情况 下 ,Amdahl 定理 可 扩展 为 : 


nm 


1 


(1— BF)+D S 





已 知 S$, 二 30,S; 


20,S3=10,S,=10,F 


0.3,F, 二 0.3, 得 : 





1 





10 





1 一 《0,.3 十 0.3 十 F,) 十 (0.3/30 十 0.3/20 十 F,/10) 


得 FF, 二 0.36, 即 部 件 3 的 可 改进 比例 为 36%。 
(2) 设 系统 改进 前 的 执行 时 间 为 工 . 则 3 个 部 件 改进 前 的 执行 时 间 为 : (0. 3 十 0. 3 十 
0.2)T 一 0. 8T, 不 可 改进 部 分 的 执行 时 间 为 0. 2T。 
已 知 3 个 部 件 改进 后 的 加 速 比 分 别 为 S1 二 30,S, 二 20,S; 二 10, 因 此 3 个 部 件 改进 后 的 


执行 时 间 为 : 


0.3T 


0.3T7T ,0.27T7 








Th 十 


30 20 
改进 后 整个 系统 的 执行 时 间 为 : T, 二 0.045T 十 0. 2T 一 0. 245 代 


十 0.045T 
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那么 系统 中 不 可 改进 部 分 的 执行 时 间 在 总 执行 时 间 中 占 的 比例 是 : 


【 题 1. 40】 
解 : 由 题 可 知 : 可 改进 比例 二 40% 二 0.4 ”部 件 加 速 比 = 20 
根据 Amdahl 定律 可 知 : 


系统 加 速 比 = = 
(QU=004 70 


采用 此 增强 功能 方法 后 ,能 使 整个 系统 的 性 能 提高 到 原来 的 1. 613 倍 。 
【是 1. 41】 

解 : 由 题 可 知 : 部 件 加 速 比 一 20, 系 统 加 速 比 = 5， 

根据 Amdahl 定律 可 知 : 


5 








| 
(1 一 可 改进 比例 ) 十 可 改 这 比 例 


由 此 可 得 : 可 改进 比例 =84.2% 
即 程序 中 浮 点 操作 所 占 的 比例 为 84. 2%。 
【 题 1. 42】 
解 : 我 们 不 考虑 所 有 系统 问题 ,所 以 可 用 CPU 性 能 公式 。 占 用 2 个 时 钟 周期 的 分 支 指 
令 占 总 指令 的 20%, 剩 下 的 指令 占用 1 个 时 钟 周期 。 所 以 
人 BR O20 XLS 
则 CPUA 性 能 为 : 
总 CPU 时 间 。 = ICA X 1.2 X 时 钟 周期 A 
根据 假设 .有 : 
时 钟 周 期 = 1. 25 X 时 钟 周 期 A 
在 CPUs 中 没有 独立 的 比较 指令 ,所 以 CPU 的 程序 量 为 CPUA 的 80% ,分 支 指令 的 比 
例 为 : 
20%/80% = 25% 
这 些 分 支 指令 占用 2 个 时 钟 周期 ,而 剩 下 的 75% 的 指令 占用 1 个 时 钟 周期 ,因此 : 
CPIs = 0.25X2++0.75X1= 1.25 
因为 CPUs 不 执行 比较 , 故 : 
ICs = 0. 8 X IC, 
因此 CPUs 性 能 为 : 
总 CPU 时 间 s 二 ICs X CPIs X 时 钟 周期 
一 0.8XICA X1.25 X (1.25 X 时 钟 周 期 ,) 
二 1.25 X ICa X 时 钟 周期 
在 这 些 假设 之 下 ,尽管 CPUs 执 行 指令 条 数 较 少 ,CPUs 因 为 有 着 更 短 的 时 钟 周期 ,所 以 
比 CPUs 快 。 
如 果 CPUs 的 时 钟 周期 时 间 仅 仅 是 CPUs 的 1.1 信 , 则 
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时 钟 周期 = 1. 10 X 时 钟 周期 、 
CPUs 的 性 能 为 : 
总 CPU 时 间 s 二 ICs X CPIs X 时 钟 周期 e 
一 0.8XICA X1.25 X (1.10 XxX 时 钟 周期 ,) 
二 1.10 X IC X 时 钟 周期 。 
因此 CPUs 由 于 执行 更 少 指 令 条 数 , 比 CPUA 运 行 更 快 。 
【 题 1. 43】 
1 














解 : (1) 和 (2) 根据 Amdahl 定律 S, 二 一 一 一 Fc 可 得 
~ 
《1 一 Ee) 十 二 
Se 
表 1.7 各 类 操作 的 加 速 比 
操作 类 型 各 类 操作 的 指令 条 数 在 各 类 操作 的 各 类 操作 单独 改进 后 ， 
程序 中 所 占 的 比例 F; 加 速 比 5; 程序 获得 的 加 速 比 

操作 1 11.1% 1.06 
操作 2 33.3% .3 1.09 
操作 3 38.9% 3.33 ba 
操作 4 16.7% 4 1.14 











(3) 4 类 操作 均 改 进 后 ,整个 程序 的 加 速 比 : 


S=— 1 i 


i F; 
rh 好 
【 题 1. 44】 
解 : (1) 由 MIPS= 时 钟 频率 /(CPIX105) ,得 处 理 机 的 CPI 为 : 


CEI 时 钟 频率 15 X10° 
' MIPS: X10 10x10° 


(2) 处 理 机 改进 后 ,程序 中 30% 的 指令 需要 2 个 时 钟 周期 ,5% 的 指令 需要 4 个 时 钟 周 
期 , 男 外 65% 的 指令 不 需 访 存 ,其 指令 的 平均 时 钟 周期 数 仍 为 1. 5 个 时 钟 周期 ,因此 ,可 得 
测试 程序 在 改进 后 的 处 理 机 上 执行 的 CPI 为 : 

CPL = >)(CPL XIC/IC) 一 2X0.3 十 4X0.05 十 1.5X0.65 一 1.775 
测试 程序 在 改进 后 的 处 理 机 上 的 执行 速率 为 : 


30 X 10° 
MIPS fi 16.9 
CPL:X 10" L775 X10 








入 

















【 题 1. 45】 
解 : 没有 改进 之 前 ,每 条 指令 的 平均 时 钟 周期 CPI 为 : 
CPI 一 > (cP 流 爱 )= (5 X30%)+ (1.25X70%)= 2.38 


(1) 采用 第 一 种 方案 : FPSQR 操作 的 CPI 由 CPlrpsar 二 20 减 至 CPIfesag 一 3, 则 整个 系 
统 的 指令 平均 时 钟 周期 数 为 : 
CPE = CPI —(CPIlrvsge — CPItsor) X 4% = 2.38 —(20— 3)X4% = 1.7 
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(2) 采用 第 二 种 方案 : 所 有 FP 操作 的 CPI 由 CPIme 王 5 减 至 CPIfe 王 3, 则 整个 系统 的 


指令 平均 时 钟 周期 数 为 : 





EECPE=CPR — CPInR)X 0%W = 238—(5— 33X30% = 178 
从 降低 整个 系统 的 指令 平均 时 钟 周 期 数 的 程度 来 看 ,第 一 种 方案 优 于 第 二 种 方案 。 
【 题 1. 46】 
解 : (1) Fe 二 0.1,Se 二 10, 则 : 





S, = 一 -一 一 人 1.10 
5 0.1 . 
(1 一 0. 二 + 帮 
(2) Fe=0.4,Se=4, 则 : 
i 
S, = x 1.43 
0.4 
= 


比较 结果 得 : 方案 (2) 更 优 。 


2.1 基本 要 求 与 难点 


2.1.1 基本 要 求 


(1) 掌握 有 关 指 令 系 统 设计 的 基本 概念 。 

(2) 理解 堆栈 型 结构 .累加 器 型 结构 和 通用 寄存 器 型 结构 三 者 的 特点 和 不 同 , 掌 握 3 种 
通用 寄存 器 型 结构 的 优 缺点 。 

(3) 掌握 指令 系统 设计 的 基本 原则 。 

(4) 熟练 掌握 哈 夫 曼 编码 、 定 长 编码 和 等 长 扩展 码 这 3 种 操作 码 编码 方法 ,掌握 平均 码 
长 的 计算 方法 ,掌握 指令 字 格 式 优化 的 方法 。 

(5) 理解 指令 系统 的 发 展 和 改进 。 

(6) 了 解 CISC 存在 的 问题 ,理解 设计 RISC 计算 机 的 一 般 原则 。 

(7) 理解 MIPS 指令 系统 结构 ,熟练 掌握 其 3 种 指令 格式 ,并 熟悉 其 常用 的 指令 。 


2.1.2 难点 


(1) 指令 系统 设计 的 基本 原则 。 
(2) 指令 操作 码 的 优化 编码 和 指令 字 格 式 优化 的 方法 。 


2.2 知识 要 点 


2.2.1 指令 系统 结构 的 分 类 


CPU 中 用 来 存放 操作 数 的 存储 单元 主要 有 3 种 : 堆栈 ,累加 器 ,通用 寄存 器 组 。 据 此 ， 
可 以 把 指令 系统 的 结构 分 为 堆栈 型 结构 .累加 器 型 结构 以 及 通用 寄存 器 型 结构 。 在 通用 寄 
存 器 型 结构 中 ,根据 ALU 指令 中 操作 数 的 来 源 不 同 ,又 可 以 进一步 分 为 寄存 器 -存储 器 型 结 
构 ( 简 称 RM 结构 ) 和 寄存 器 -寄存 器 型 结构 (RR 结构 )。RM 结构 的 操作 数 可 以 来 自 存储 
器 ,而 RR 结构 的 操作 数 则 都 是 来 自 通 用 寄存 器 组 。 由 于 在 RR 结构 中 ,只 有 load 指令 和 
store 指令 能 够 访问 存储 器 ,所 以 也 称 之 为 load-store 结构 。 

对 于 不 同类 型 的 结构 ,指令 系统 中 操作 数 的 位 置 . 个 数 , 以 及 操作 数 的 给 出 方式 ( 显 式 或 
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隐 式 ) 是 不 同 的 。 显 式 给 出 是 用 指令 字 中 的 操作 数字 段 给 出 , 隐 式 给 出 则 是 使 用 事先 约定 好 
了 的 单元 。 在 堆栈 型 结构 中 ,操作 数 都 是 隐 式 的 , 即 堆栈 的 栈 项 和 次 栈 顶 中 的 数据 ,运算 后 
结果 写 和 人 栈 顶 。 在 累加 器 型 结构 中 ,其 一 个 操作 数 是 隐 式 的 , 即 累加 器 , 另 一 个 操作 数 则 是 
显 式 给 出 ,是 一 个 存储 器 单元 。 运 算 结果 送 回 累加 器 。 在 通用 寄存 器 型 结构 中 ,所 有 操作 数 
都 是 显 式 地 给 出 ,它们 或 者 都 是 来 自 通 用 寄存 器 组 ,或 者 是 有 一 个 操作 数 来 自 存储 器 。 运 算 
结果 写 人 通用 寄存 器 组 。 

可 以 看 出 ,在 堆栈 型 或 累加 器 型 的 机 器 中 ,指令 字 比 较 短 ,程序 占用 的 空间 比较 小 。 但 
是 ,由 于 在 堆栈 型 机 器 中 不 能 随机 地 访问 堆栈 ,难以 生成 有 效 的 代码 ,而 且 对 栈 顶 的 访问 是 
个 瓶颈 。 在 累加 器 型 的 机 器 中 ,由 于 只 有 一 个 中 间 结 果 暂 存 器 ( 即 累加 器 ) ,所 以 需要 频繁 地 
访问 存储 器 。 

早期 的 大 多 数 机 器 都 是 采用 堆栈 型 结构 或 累加 器 型 结构 ,但 是 自 1980 年 以 后 ,大 多 数 
机 器 都 陆续 采用 了 通用 寄存 器 型 结构 。 这 主要 是 因为 通用 寄存 器 型 结构 在 灵活 性 和 提高 性 
能 方面 有 明显 的 优势 。 主 要 体现 在 : 

(1) 寄存 器 的 访问 速度 比 存储 器 快 很 多 。 

(2) 对 编译 器 而 言 , 能 更 加 容易 有 效 地 分 配 和 使 用 寄存 器 。 

(3) 寄存 器 可 以 用 来 存放 变量 。 这 能 带 来 许多 好 处 : 四 由 于 寄存 器 比 存储 器 快 ,所 以 
将 变量 分 配给 寄存 器 能 加 快 程序 的 执行 速度 ; @ 能 够 减少 对 存储 器 的 访问 ; @ 可 以 用 更 少 
的 地 址 位 来 对 寄存 器 进行 寻 址 ,从 而 有 效 地 减少 程序 的 目标 代码 所 占用 的 空间 。 





2.2.2 和 寻 址 方式 


寻 址 方式 是 指 指令 系统 中 如 何 形成 所 要 访问 的 数据 的 地 址 。 一 般 来 说 , 寻 址 方式 可 以 
指明 指令 中 的 操作 数 是 一 个 常数 ,一 个 寄存 器 操作 数 或 者 是 一 个 存储 器 操作 数 。 对 于 存储 
器 操作 数 来 说 ,由 寻 址 方式 确定 的 存储 器 地 址 称 为 有 效 地 址 。 

在 CISC 计算 机 中 , 寻 址 的 方式 比较 多 ,如 : 寄存 器 寻 址 ,立即 数 寻 址 , 偏 移 寻 址 ,寄存 器 
间接 寻 址 ,索引 寻 址 ,直接 寻 址 或 绝对 寻 址 ,存储 器 间接 寻 址 , 自 增 寻 址 , 自 减 寻 址 ,缩放 寻 
址 等 。 

表示 寻 址 方式 的 方法 有 两 种 ,一 种 是 隐 含 在 指令 的 操作 码 中 , 另 一 种 是 在 指令 字 中 设置 
专门 的 寻 址 字段 ,用 以 直接 指出 寻 址 方式 。 

为 了 避免 出 现 一 个 信息 字 被 截断 存储 在 两 个 存储 字 中 的 情况 ,可 以 要 求 信 息 宽度 不 超 
过 主 存 宽度 的 信息 必须 存放 在 一 个 存储 字 内 ,不 能 跨 边界 。 为 了 实现 这 一 点 ,就 必须 做 到 : 
信息 在 主 存 中 存放 的 起 始 地 址 必须 是 该 信息 宽度 ( 字 节 数 ) 的 整数 倍 , 即 满足 以 下 条 件 。 

字 节 信 息 的 起 始 地 址 为 : X…XXxXxx 

半 字 信息 的 起 始 地 址 为 : X…XxXxxXx0 

单字 信息 的 起 始 地 址 为 : X…XX00 

双 字 信息 的 起 始 地 址 为 : X…X 000 
这 就 是 所 谓 的 信息 存储 的 整数 边界 概念 。 
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2.2.3 指令 系统 的 设计 和 优化 


1. 指令 系统 设计 的 基本 原则 


指令 系统 是 传统 机 器 语言 程序 设计 者 所 看 到 的 计算 机 的 主要 属性 ,是 软 、 硬 件 的 主要 交 
界面 。 它 在 很 大 程度 上 决定 了 计算 机 具有 的 基本 功能 。 指 令 系统 的 设计 包括 指令 的 功能 设 
计 和 指令 格式 的 设计 。 

对 指令 系统 的 基本 要 求 是 完整 性 、 规 整 性 、 正 交 性 、 高 效率 和 兼容 性 。 

完整 性 是 指 在 一 个 有 限 可 用 的 存储 空间 内 ,对 于 任何 可 解 的 问题 ,编制 计算 程序 时 , 指 
令 系 统 所 提供 的 指令 足够 使 用 。 完 整 性 要 求 指令 系统 功能 齐全 、 使 用 方便 。 通 用 计算 机 系 
统 的 基本 指令 至 少 包括 4 类 : 算术 和 逻辑 运算 ,数据 传输 ,控制 ,系统 。 

规整 性 主要 包括 对 称 性 和 均匀 性 。 对 称 性 是 指 所 有 与 指令 系统 有 关 的 存储 单元 的 使 
用 、 操 作 码 的 设置 等 都 是 对 称 的 。 均 匀 性 是 指 对 于 各 种 不 同 的 操作 数 类 型 . 字 长 .操作 种 类 
和 数据 存储 单元 ,指令 的 设置 都 要 同等 对 待 。 

正 交 性 是 指 在 指令 中 各 个 不 同 含义 的 字段 ,如 操作 类 型 .数据 类 型 . 寻 址 方式 字段 等 ,在 
编码 时 应 互 不 相关 、 相 互 独立 。 

高 效率 是 指 指令 的 执行 速度 快 、 使 用 频 度 高 。 在 RISC 结构 中 ,大 多 数 指令 都 能 在 一 个 
节拍 内 完成 ,而 且 只 设置 使 用 频 度 高 的 指令 。 

兼容 性 主要 是 要 实现 向 后 兼容 ,指令 系统 可 以 增加 新 指令 ,但 不 能 删除 指令 或 更 改 指令 
的 功能 。 

在 设计 系统 时 ,有 两 种 截然 不 同 的 设计 策略 : CISC 和 RISC。CISC 的 策略 是 增强 指令 
功能 ,把 越 来 越 多 的 功能 交 由 硬件 来 实现 ,指令 的 数量 也 是 越 来 越 多 。RISC 的 策略 则 是 尽 
可 能 地 把 指令 系统 简化 ,不 仅 指令 的 条 数 少 ,而 且 指 令 的 功能 也 比较 简单 。 


2. 控制 指令 


控制 指令 是 用 来 改变 控制 流 的 。 为 便于 论述 .本 书 约定 : 当 指 令 是 无 条 件 地 改变 控制 
流 时 , 称 之 为 跳 转 指 令 ; 而 当 控 制 指令 是 有 条 件 地 改变 控制 流 时 , 则 称 之 为 分 支 指令 。 

能 够 改变 控制 流 的 指令 有 4 种 : 条件 分 支 (conditional branch)、 跳 转 (jump)、 过 程 调用 
(call) 和 过 程 返回 (return)。 统 计数 据 表明 ,改变 控制 流 的 大 部 分 指令 是 分 支 指令 。 因 此 ， 
如 何 表示 分 支 条 件 就 显得 非常 重要 。 现 在 常用 的 3 种 表示 分 支 条 件 的 方法 及 其 优 缺 点 见 
类 2.1。 

表 2.1 表示 分 支 条 件 的 主要 方法 及 其 优 缺 点 
名 称 检测 分 支 条 件 的 方法 优 点 缺 ”点 





条 件 码 是 增设 的 状态 。 而 且 它 限 
条 件 码 ”| 检测 由 ALU 操作 设置 的 一 些 特殊 | 可 以 自由 设置 | 制 了 指令 的 执行 顺序 ,因为 它们 
(CO) 的 位 ( 即 CC) 分 支 条 件 要 保证 条 件 码 能 顺利 地 传送 给 分 
支 指令 
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续 表 


名 称 检测 分 支 条 件 的 方法 优 点 缺 ”点 


比较 指令 把 比较 结果 放 太 任何 一 
条 件 寄存 器 | 个 寄存 器 ,检测 时 就 检测 该 寄存 器 | 简单 PE Te 
用 一 条 指令 (而 


比较 操作 是 分 支 指令 的 一 部 分 , 通 当 采 用 流水 方式 时 ,该 指令 的 操 
六 的 全 常 这 种 比较 是 受到 一 定 限制 的 人 作 可 能 太 多 ,在 一 拍 内 做 不 完 

















在 控制 指令 中 ,指定 转移 目标 地 址 最 常用 的 方法 是 在 指令 中 提供 一 个 偏 移 量 ,由 该 偏 移 
量 和 程序 计数 器 (PC) 的 值 相 加 而 得 出 目标 地 址 。 这 种 寻 址 方式 叫 作 PC 相对 寻 址 。 

对 于 过 程 调用 和 返回 而 言 ,除了 要 改变 控制 流 之 外 ,可 能 还 要 保存 机 器 状态 。 至 少 也 得 
保存 返回 地 址 ,一般 是 放 在 专用 的 链接 寄存 器 或 堆栈 中 。 


3. 指令 操作 码 的 优化 


指令 一 般 由 两 部 分 组 成 : 操作 码 和 地 址 码 。 指 令 格式 的 设计 就 是 确定 指令 字 的 编码 方 
式 , 包 括 操作 码 字 段 和 地 址 码 字 段 的 编码 和 表示 方式 。 指 令 格 式 不 仅 对 编译 形成 的 代码 的 
长 度 有 影响 ,而 且 对 处 理 器 的 实现 也 有 影响 。 

1) 哈 夫 曼 编码 

哈 夫 曼 压 缩 概念 的 基本 思想 是 : 当 各 种 事件 发 生 的 概率 不 均等 时 ,可 以 对 发 生 概率 最 
高 的 事件 用 最 短 的 位 数 (时 间 ) 来 表示 (处 理 ) ,而 对 于 出 现 概率 较 低 的 事件 , 则 可 以 用 较 长 的 
位 数 (时 间 ) 来 表示 (处 理 ), 从 而 使 总 的 平均 位 数 (时 间 ) 缩 短 。 

哈 夫 曼 编码 可 以 通过 构造 哈 夫 曼 树 来 求 得 。 


操作 码 优 化 的 程度 可 以 用 信息 粹 有 H = 一 DD pilogsp, 来 衡量 。 它 表示 用 二 进 制 编码 表 


示 个 码 点 时 ,理论 上 的 最 短 平 均 编 码 长 度 。 

虽然 可 以 利用 哈 夫 曼 编码 来 减少 操作 码 的 平均 位 数 ,但 所 获得 的 编码 是 变 长 度 的 ,不 规 
整 ,不 利于 硬件 处 理 。 

2) 等 长 扩展 码 

在 早期 的 计算 机 上 ,为 了 便于 分 级 译 码 ,一 般 都 采用 等 长 扩展 码 , 如 4-8-12 位 等 。4-8-12 
的 扩展 方法 有 许多 种 ,例如 : 15/15/15 法 和 8/64/512 法 。 需 要 对 各 扩展 方案 进行 比较 ,以 
便 找 出 一 种 平均 码 长 尽 可 能 短 、 码 长 种 类 个 数 不 能 过 多 的 、 便 于 优化 实现 的 方案 。 

3) 定 长 操作 码 

随 着 计算 机 存储 器 空间 的 日 益 加 大 ,为 了 保证 操作 码 的 译 码 速度 减少 译 码 的 复杂 度 ， 
现在 许多 计算 机 都 采用 了 固定 长 度 的 操作 码 , 所 有 指令 的 操作 码 都 是 同一 的 长 度 (如 8 位 ) 。 
特别 是 RISC 结构 的 机 器 更 是 如 此 。 这 是 以 程序 的 存储 空间 为 代价 来 换取 硬件 实现 上 的 
好 处 。 


4. 指令 字 格 式 的 优化 


为 了 能 利用 操作 码 缩短 所 带 来 的 好 处 ,可 以 采用 地 址 个 数 可 变 和 /或 地 址 码 长 度 可 变 的 
方案 。 寻 址 方式 的 表示 方法 有 两 种 : 与 操作 码 一 起 编码 或 设置 专门 的 地 址 描述 符 。 如 果 处 
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理 机 具有 多 种 寻 址 方式 ,而 且 指令 有 多 个 操作 数 ,那么 就 很 难 跟 操作 码 一 起 编码 ,而 是 应 该 
给 每 个 操作 数 分 配 一 个 地 址 描述 符 , 由 描述 符 指出 采用 什么 寻 址 方式 。 如 果 处 理 机 采用 
load-store 结构 , 寻 址 方式 只 有 很 少 几 种 ,那么 就 可 以 把 寻 址 方式 编码 到 操作 码 中 。 

在 采用 固定 长 度 操作 码 的 情况 下 ,通过 设置 不 同 的 地 址 字段 ,也 可 以 形成 不 同 特点 的 编 
码 格式 。 第 一 种 是 可 变 长 度 编码 格式 , 当 指 令 系统 的 寻 址 方式 和 操作 种 类 很 多 时 ,这 种 编码 
格式 是 最 好 的 。 这 种 方法 试图 用 最 少 的 二 进 制 位 来 表示 目标 代码 。 但 是 ,这 种 编码 格式 有 
可 能 会 使 各 条 指令 的 字 长 和 执行 时 间 相 差 很 大 。 

第 二 种 是 固定 长 度 编 码 格式 , 它 将 操作 类 型 和 寻 址 方式 一 起 编码 到 操作 码 中 。 采 用 这 
种 编码 格式 时 ,经 常 是 所 有 指令 的 长 度 都 是 固定 统一 的 。 当 寻 址 方式 和 操作 类 型 非常 少时 ， 
这 种 编码 格式 非常 好 , 它 可 以 有 效 地 降低 译 码 的 复杂 度 ,提高 译 码 的 速度 。 大 部 分 RISC 的 
指令 系统 都 采用 了 这 种 编码 格式 。 

第 三 种 为 混合 型 编码 格式 , 它 是 把 上 述 两 种 方法 结合 起 来 , 即 提供 若干 种 固定 的 指令 字 
长 ,以 期 达到 既 能 够 减少 目标 代码 长 度 , 又 能 降低 译 码 复杂 度 的 目标 。 


2.2.4 指令 系统 的 发 展 和 改进 


1. 沿 CISC 方向 发 展 和 改进 指令 系统 


指令 数量 多 ,功能 多 样 是 CISC 指令 系统 的 一 大 特点 。 可 以 从 以 下 3 个 方面 对 CISC 指 
令 系统 进行 改进 。 

(1) 面向 目标 程序 增强 指令 功能 。 

对 大 量 的 目标 程序 及 其 执行 情况 进行 统计 分 析 , 找 出 那些 使 用 频 度 高 .执行 时 间 长 的 指 
令 或 指令 串 。 对 于 使 用 频 度 高 的 指令 ,用 硬件 加 快 其 执行 ; 对 于 使 用 频 度 高 的 指令 串 ,用 一 
条 新 的 指令 来 替代 。 

(2) 面向 高 级 语言 的 优化 实现 来 改进 指令 系统 。 

大 多 数 高 级 语言 与 一 般 的 机 器 语言 的 语义 差距 非常 大 ,这 就 为 高 级 语言 程序 的 编译 带 来 
了 一 些 问题 。 一 方面 是 编译 器 本 身 比较 复杂 , 另 一 方面 是 生成 的 目标 代码 难以 达到 很 好 的 优 
化 。 因 此 ,需要 改进 指令 系统 ,增加 对 高 级 语言 和 编译 器 的 支持 。 可 以 从 以 下 3 个 方面 人手。 

@ 针对 高 级 语言 中 使 用 频 度 高 .执行 时 间 长 的 语句 ,增强 有 关 指 令 的 功能 。 

@ 统计 结果 表明 ,条 件 转移 (IF) 和 无 条 件 转移 (GOTO) 请 句 所 占 的 比例 也 比较 高 , 达 
到 了 20% 以 上 ,所 以 增强 转移 指令 的 功能 ,增加 转移 指令 的 种 类 是 必要 的 。 

@ 增强 系统 结构 的 规整 性 ,减少 系统 结构 中 的 各 种 例外 情况 。 

经 过 上 述 扩充 后 ,对 高 级 语言 的 优化 实现 提供 了 有 力 的 支持 ,机 器 语言 和 高 级 语言 的 请 
义 差 距 缩小 了 许多 。 这 样 的 计算 机 称 为 面向 高 级 语言 的 计算 机 。 

(3) 面向 操作 系统 的 优化 实现 改进 指令 系统 。 

系统 结构 必须 对 操作 系统 的 实现 提供 专门 的 指令 。 尽 管 这 些 指 令 的 使 用 频 度 比较 低 ， 
但 如 果 没 有 它们 的 支持 ,操作 系统 将 无 法 实现 。 指 令 系 统 往往 设置 了 支持 以 下 操作 的 指令 : 
驯 处 理 机 工作 状态 和 访问 方式 的 切换 ; 加 进程 的 管理 和 切换 ; @ 存 储 管理 和 信息 保护 ; 
田 进 程 的 同步 与 互 斥 ,信号灯 的 管理 等 。 
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2. 沿 RISC 方向 发 展 和 改进 指令 系统 


从 1979 年 开始 ,美国 加 州 大 学 Berkeley 分 校 以 Patterson 为 首 的 研究 小 组 对 指令 系统 
结构 的 合理 性 进行 了 深入 研究 ,他们 的 研究 结果 表明 ,CISC 指令 集结 构 存 在 以 下 问题 。 

(1) 各 种 指令 的 使 用 频 度 相差 悬殊 。 只 有 20% 的 指令 使 用 频 度 比较 高 , 占 运行 时 间 的 
80%。 而 其 余 80% 的 指令 只 在 20% 的 运行 时 间 内 才 会 用 到 。 而 且 使 用 频 度 高 的 指令 也 是 
最 简单 的 指令 。 

(2) 指令 系统 庞大 ,指令 条 数 很 多 ,许多 指令 的 功能 又 很 复杂 。 这 使 得 控制 器 硬件 变 得 
非常 复杂 。 

(3) 许多 指令 由 于 操作 繁杂 ,其 CPI 值 比较 大 ,执行 速度 慢 。 采 用 这 些 复 杂 指 令 有 可 能 
使 整个 程序 的 执行 时 间 反 而 增加 。 

(4) 由 于 指令 功能 复杂 ,规整 性 不 好 ,不 利于 采用 流水 技术 来 提高 性 能 。 

Patterson 等 人 提出 了 RISC 指令 集结 构 的 设计 思想 。RISC 是 近代 计算 机 系统 结构 发 
展 史 中 的 一 个 重要 里 程 碑 。 

设计 RISC 计算 机 一 般 应 当 遵 循 以 下 原则 。 

(1) 指令 条 数 少 、 指 令 功 能 简单 。 确 定 指令 系统 时 ,只 选取 使 用 频 度 很 高 的 指令 ,在 此 
基础 上 补充 一 些 最 有 用 的 指令 (如 支持 操作 系统 和 高 级 语言 实现 的 指令 )。 

(2) 采用 简单 而 又 统一 的 指令 格式 ,并 减少 寻 址 方式 。 指 令 字 长 都 为 32 位 或 64 位 。 

(3) 指令 的 执行 在 单 周 期 内 完成 (采用 流水 线 技术 后 )。 

(4) 采用 load-store 结构 。 即 只 有 load 和 store 指令 才能 访问 存储 器 。 

(5) 大 多 数 指令 都 采用 硬 连 逻辑 来 实现 。 

(6) 强调 优化 编译 器 的 作用 ,为 高 级 语言 程序 生成 优化 的 代码 。 


2.2.5 操作 数 的 类 型 和 大 小 


计算 机 系统 所 能 处 理 的 数据 类 型 各 式 各 样 。 在 设计 计算 机 系统 结构 时 ,需要 研究 哪些 
数据 类 型 用 硬件 实现 ,哪些 用 软件 实现 ,并 研究 它们 的 实现 方法 。 

数据 表示 是 指 计算 机 硬件 能 够 直接 识别 、 指 令 系统 可 以 直接 调用 的 数据 类 型 。 它 一 般 
是 所 有 数据 类 型 中 最 常用 .相对 比较 简单 用 硬件 实现 比较 容易 的 几 种 。 例 如 : 定点 数 ( 整 
数 ) .逻辑 数 (布尔 数 )、 浮 点 数 (实数 ) 字符、 字符 串 等 。 

表示 操作 数 类 型 的 方法 有 以 下 两 种 。 

(1) 由 指令 中 的 操作 码 指定 操作 数 的 类 型 。 这 是 最 常用 的 方法 。 绝 大 多 数 机 器 都 采用 
了 这 种 方法 。 

(2) 给 数据 加 上 标识 (tag) ,由 数据 本 身 给 出 操作 数 类 型 。 这 就 是 带 标 志 符 的 数据 表 
示 。 硬 件 通 过 识别 这 些 标 志 符 就 能 得 知 操作 数 的 类 型 ,并 进行 相应 的 操作 。 

带 标志 符 的 数据 表示 有 很 多 优点 ,但 由 于 需要 在 执行 过 程 中 动态 检测 标志 符 ,动态 开销 
比较 大 ,所 以 采用 这 种 方案 的 机 器 很 少见 。 

本 书 中 ,操作 数 的 大 小 (size) 是 指 操作 数 的 位 数 或 字 节 数 。 一 般 来 说 ,主要 的 大 小 有 : 
字 节 (8 位 )、 半 字 (16 位 )、 字 (32 位 ) 和 双 字 (64 位 )。 
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2.2.6 MIPS 指令 系统 结构 


1981 年 ,Stanford 大 学 的 Hennessy 及 其 同事 们 发 表 了 他 们 的 MIPS 计算 机 ,后 来 ,在 
此 基础 上 形成 了 MIPS 系列 微 处 理 器 。 到 目前 为 止 ,已 经 出 现 了 许多 版 本 的 MIPS。 下 面 
将 介绍 MIPS64 的 一 个 子 集 ,并 将 其 简称 为 MIPS。 


1. MIPS 的 寄存 器 


MIPS64 有 32 个 64 位 通用 寄存 器 : Ro,R1,…,R31。 它 们 被 简称 为 GPRs (General- 
Purpose Registers) ,有 时 也 被 称 为 整数 寄存 器 。R0 的 值 永远 是 0。 此 外 ,还 有 32 个 64 位 
浮 点 数 寄存 器 : F0,F1,…,F31。 它 们 被 简称 为 FPRs(Floating-Point Registers) 。 


2. MIPS 的 数据 表示 


MIPS 的 数据 表示 有 以 下 两 种 。 

(1) 整数 : 字 节 (8 位 ), 半 字 (16 位 ), 字 (32 位 ) 和 双 字 (64 位 ) 。 

(2) 浮 点 数 : 单 精度 浮 点 数 (32 位 ) , 双 精 度 浮 点 数 (64 位 ) 。 

MIPS64 的 操作 是 针对 64 位 整数 以 及 32 位 或 64 位 浮 点 数 进行 的 。 字 节 、 半 字 或 者 字 
在 装 和 人 64 位 寄存 器 时 ,用 零 扩 展 或 者 用 符号 位 扩展 来 填充 该 寄存 器 的 剩余 部 分 。 装 入 以 
后 ,对 它们 将 按照 64 位 整数 的 方式 进行 运算 。 


3. MIPS 的 数据 寻 址 方式 


MIPS 的 数据 寻 址 方式 只 有 立即 数 寻 址 和 偏 移 量 寻 址 两 种 ,立即 数字 段 和 偏 移 量 字段 
都 是 16 位 的 。 寄 存 器 间接 寻 址 是 通过 把 0 作为 偏 移 量 来 实现 的 ,16 位 绝对 寻 址 是 通过 把 
R0( 其 值 永远 为 0) 作 为 基 址 寄存 器 来 完成 的 。 

MIPS 的 寻 址 方式 是 编码 到 操作 码 中 的 。 

MIPS 的 存储 器 是 按 字 节 寻 址 的 ,地 址 为 64 位 。 由 于 MIPS 是 load-store 结构 ,GPRs 
和 FPRs 与 存储 器 之 间 的 数据 传送 都 是 通过 load 和 store 指令 来 完成 的 。 与 GPRs 有 关 的 
存储 器 访问 可 以 是 字 节 , 半 字 , 字 或 双 字 。 与 FPRs 有 关 的 存储 器 访问 可 以 是 单 精度 浮 点 数 
或 双 精 度 浮 点 数 。 所 有 存储 器 访问 都 必须 是 边界 对 齐 的 。 


4. MIPS 的 指令 格式 


为 了 使 处 理 器 更 容易 进行 流水 实现 和 译 码 ,所 有 的 指令 都 是 32 位 的 ,其 格式 见 图 2. 1。 
这 些 指令 格式 很 简单 ,其 中 操作 码 占 6 位 。MIPS 按 不 同类 型 的 指令 设置 不 同 的 格式 ,共有 
3 种 格式 ,它们 分 别 对 应 于 工 类 指令 、R 类 指令 \J 类 指令 。 在 这 3 种 格式 中 ,同名 字段 的 位 
置 固定 不 变 。 

1) I 类 指令 

这 类 指令 包括 所 有 的 load 和 store 指令 ,立即 数 指令 ,分 支 指令 ,寄存 器 跳 转 指令 ,寄存 
器 链接 跳 转 指令 。 其 格式 如 图 2. 1(a) 所 示 , 其 中 的 立即 数字 有 段 为 16 位 ,用 于 提供 立即 数 或 
偏 移 量 。 
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6 5 5 16 
操作 码 rs rt 立即 数 (immediate) 
0 5 6 10 11 15 16 31 
(a) [类 指令 
6 5 5 5 5 6 
操作 码 rs rt rd shamt funct 
0 5 6 10 11 1516 2021 25 26 31 
(b) R 类 指令 
6 26 
操作 码 与 PC 相 加 的 偏 移 量 
0 SS 辣 31 
(e) J 类 指令 


2.1 MIPS 的 指令 格式 


(1) load 指令 : 访 存 有 效 地 址 为 Regs[rs] 十 immediate, 从 存储 器 取 来 的 数据 放 入 寄存 
器 rt。 

(2) store 指令 : 访 存 有 效 地 址 为 Regs[rs] 十 immediate, 要 存 人 存储 器 的 数据 放 在 寄存 
器 rt 中 。 

(3) 立即 数 指令 : Regs[rt] 二 Regs[rs] op immediate。 

(4) 分 支 指令 : 转移 目标 地 址 为 PC 十 immediate,Regs[rs] 为 用 于 比较 的 值 。 

(5) 寄存 器 跳 转 .寄存 器 跳 转 并 链接 : 转移 目标 地 址 为 Regs[rs]。 

2) R 类 指令 

包括 ALU 指令 ,专用 寄存 器 读 / 写 指令 ,move 指令 等 。 

ALU 指令 : Regs[rd]< Regs[rs] funct Regs[rt]。 其 中 ,funct 为 具体 的 运算 操作 
编码 。 

3) J 类 指令 

包括 跳 转 指令 , 跳 转 并 链接 指令 , 自 陷 指 令 , 异 常 返 回 指令 。 在 这 类 指令 中 ,指令 字 的 低 
26 位 是 偏 移 量 , 它 与 PC 值 相 加 形成 跳 转 的 地 址 。 


5. MIPS 的 操作 


MIPS 指令 可 以 分 为 4 大 类 : load 和 store,ALU 操作 ,分 支 与 跳 转 , 浮 点 操作 。 
除了 RO 外 ,所 有 通用 寄存 器 与 浮 点 寄存 器 都 可 以 进行 load 或 store。 单 精度 浮 点 数 占用 浮 
点 寄存 器 的 一 半 , 单 精度 与 双 精度 之 间 的 转换 必须 显 式 地 进行 。 浮 点 数 的 格式 是 IEEE 754。 


习 题 


1. 概念 题 
【 题 2.1】 解释 下 列 名 词 
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堆栈 型 机 器 累加 器 型 机 器 通用 寄存 器 型 机 器 寻 址 方式 
信息 存储 的 整数 边界 ”指令 系统 的 完整 性 ”指令 系统 的 规整 性 数据 表示 
指令 系统 的 正 交 性 PC 相对 寻 址 


2. 选择 题 

【 题 2.2】 不 需要 编 址 的 数据 存储 空间 是 ( ) 

A. CPU 中 的 通用 寄存 器 B. 主 存储 器 
C. 1/O 接口 中 的 寄存 器 D. 堆栈 


【是 2.3】 信息 按 整数 边界 存储 的 主要 优点 是 ( Ws 

A. 访 存 速度 快 B. 节约 主 存单 元 ” C. 指令 字 的 规整 化 D. 指令 的 优化 
【 题 2.4】 操作 码 优 化 的 主要 目的 是 ( Y 

A. 缩短 指令 字 长 B. 减少 程序 总 位 数 

C. 增加 指令 字 表 示 的 信息 D. A.B 和 C 

【 题 2.5】 平均 码 长 最 短 的 编码 是 ( 站 

A. 定 长 编码 

B. 哈 夫 曼 编码 

C. 扩展 编码 

D. 需要 根据 编码 使 用 的 频 度 计算 平均 码 长 后 确定 

【 题 2. 6〗 2-4 扩展 编码 最 多 可 以 得 到 的 码 点 数 是 ( 入 

A. 6 B. 7 G, Ww B13 
【 题 2.7】 面向 目标 程序 优化 的 思想 是 ( ys 

A. 通过 使 用 频 度 分 析 来 改进 指令 系统 

B. 增设 强 功 能 复合 指令 代替 原来 的 软件 实现 

C.A 和 B 

D. 面向 编译 系统 改进 指令 系统 

【 题 2.8】 RISC 执行 程序 的 速度 比 CISC 要 快 的 原因 是 ( hs 

A. RISC 的 指令 系统 中 指令 条 数 较 少 

B. 程序 在 RISC 上 编译 生成 的 目标 程序 较 短 

C. RISC 的 指令 平均 执行 周期 数 较 少 

D. RISC 只 允许 load 和 store 指令 访 存 

【 题 2.9】 RISC 采用 寄存 器 窗口 重 和 技术 ,从 而 大 大 减少 了 ( 5 
A. 绝 大 多 数 指令 的 执行 时 间 B. 程序 调用 引起 的 访 存 次 数 
C. 目标 程序 的 指令 条 数 D. CPU 访 存 的 访问 周期 


3. 填空 题 


【 题 2. 10〗 CPU 中 用 来 存储 操作 数 的 存储 单元 主要 有 5 
和 5 
【十 2. 11〗 可 将 大 多 数 通用 寄存 器 型 指令 系统 结构 分 为 和 和 
3 类 。 
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【 题 2. 12〗 对 指令 系统 的 基本 要 求 是 : 





和 

【 题 2.13】 常用 的 3 种 表示 分 支 条 件 的 技术 是 和 

【 题 2.14】 改变 控制 流程 的 4 种 情况 有 yy 和 5 

【 题 2.15】 当 控制 指令 为 无 条 件 改变 控制 流 时 , 称 之 为 。 为 有 条 件 改变 控制 
流 时 , 称 之 为 

【 题 2.16】 2-4-6 扩展 编码 方法 的 最 短 码 长 是 位 ,最 长 码 长 是 位 。 
最 多 可 编码 的 码 点 数 为 a 

【 题 2.17】 指令 系统 编码 格式 有 和 和 3 种 。 

【 题 2. 18〗 对 CISC 指令 系统 可 以 从 和 3 个 方面 进 和 
改进 。 














1 





4. 简 答题 


【 题 2. 19】 区 别 不 同 指令 系统 结构 的 主要 因素 是 什么 ? 根据 这 个 主要 因素 可 将 指令 
系统 结构 分 为 哪 3 类 ? 

【 题 2.20】 通用 寄存 器 型 指令 系统 结构 在 灵活 性 和 提高 性 能 方面 的 优势 主要 体现 在 
哪 几 个 方面 ? 

【 题 2.21】 常见 的 3 种 通用 寄存 器 型 机 器 的 优 缺 点 各 有 哪些 ? 

【 题 2.22】 计算 机 指令 系统 结构 设计 所 涉及 的 内 容 有 哪些 ? 

【 题 2.23】 信息 炉 也 的 含义 是 什么 在 优化 编码 中 , 瑟 有 何 作用 ? 

【 题 2.24】 简 述 指令 系统 结构 中 采用 多 种 寻 址 方式 的 优 缺 点 。 

【 题 2.25】 表示 寻 址 方式 的 主要 方法 有 哪些 ? 简 述 这 些 方法 的 优 缺 点 。 

【 题 2.26】 指令 系统 的 规整 性 主要 包括 哪 两 个 方面 ? 简 述 其 含义 。 

【 题 2.27】 简 述 在 指令 操作 码 优化 中 哈 夫 曼 压缩 概念 的 基本 思想 。 

【 题 2. 28〗 通常 有 哪 几 种 指令 格式 ? 简 述 其 适用 范围 。 

【 题 2.29】 简 述 操作 数 的 类 型 及 其 相应 的 表示 方法 。 

【 题 2. 30〗 数据 结构 和 机 器 的 数据 表示 之 间 是 什么 关系 ? 确定 和 引入 数据 表示 的 基 
本 原则 是 什么 ? 

【 题 2.31】 根据 CPU 性 能 公式 简 述 RISC 指令 集结 构 计算 机 和 CISC 指令 集结 构 计 
算 机 的 性 能 特点 。 

【 题 2.32】 从 当前 的 计算 机 技术 观点 来 看 ,CISC 结构 有 什么 缺点 ? 

【 题 2.33】 简 述 RISC 结构 的 设计 原则 。 

【 题 2.34】 试 就 指令 格式 、 寻 址 方式 和 每 条 指令 的 周期 数 (CPI) 等 方面 比较 RISC 和 
CISC 处 理 机 的 指令 系统 结构 。 


5. 应 用 题 
【 题 2. 35】 某 台 处 理 机 的 各 条 指令 使 用 频 度 如 表 2. 2 所 示 。 
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表 2.2 各 条 指令 使 用 频 度 











指令 使 用 频 度 指令 使 用 频 度 指令 使 用 频 度 
ADD 43% JOM 6% CIL 2% 
SUB 13% STO 5% CLA 22% 
JMP 7% SHR 1% STP 1% 























请 分 别 设计 这 9 条 指令 操作 码 的 哈 夫 曼 编码 .3/3/3 扩展 编码 和 2/7 扩展 编码 ,并 计算 
这 3 种 编码 的 平均 码 长 。 

【 题 2.36】 某 机 器 的 指令 字 长 为 16 位 , 设 有 单 地 址 指令 和 两 地 址 指令 。 若 每 个 地 址 
字段 均 为 6 位 , 且 两 地 址 指令 有 A 条 , 问 单 地 址 指令 最 多 可 以 有 多 少 条 ? 

【 题 2.37】 某 处理 机 的 指令 系统 要 求 有 : 三 地 址 指令 4 条 , 单 地 址 指令 255 条 , 零 地 址 
指令 16 条 。 设 指令 字 长 为 12 位 ,每 个 地 址 码 长 度 为 3 位 。 问 能 和 否 用 扩展 编码 为 其 操作 码 
编码 ? 如 果 要 求 单 地 址 指令 为 254 条 ,能 否 对 其 操作 码 扩展 编码 ? 说 明理 由 。 

【 题 2.38】 一 台 模 型 机 共有 7 条 指令 ,各 指令 的 使 用 频 度 分 别 为 : 35% (了),25% 
(1:),20% (1),10% (I4),5% (Is),3% (16),2% (1;); 有 8 个 通用 寄存 器 和 两 个 变 址 寄 
存 器 。 

(1) 设计 7 条 指令 操作 码 的 哈 夫 曼 编码 ,并 计算 操作 码 的 平均 码 长 。 

(2) 若 要 求 设 计 8 位 长 的 寄存 器 -寄存 器 型 指令 3 条 ,16 位 长 的 寄存 器 -存储 器 型 变 址 
寻 址 指令 4 条, 变 址 范围 为 一 127 一 十 127, 请 设计 指令 格式 ,并 给 出 指令 各 字段 的 长 度 和 操 
作 码 编码 。 

【 题 2. 39〗 某 处 理 机 的 指令 字 长 为 16 位 ,有 二 地 址 指令 、 单 地 址 指令 和 零 地 址 指令 3 
类 ,每 个 地 址 字段 的 长 度 均 为 6 位 。 

(1) 如 果 二 地 址 指令 有 15 条 , 单 地 址 指令 和 零 地 址 指令 的 条 数 基 本 相等 ,那么 , 单 地 址 
指令 和 零 地 址 指令 各 有 多 少 条 ?为 3 类 指令 分 配 操作 码 。 

(2) 如 果 指 令 系统 要 求 这 3 类 指令 条 数 的 比例 为 1 : 9 : 9, 那 么 ,这 3 类 指令 各 有 多 少 
条 ? 为 3 类 指令 分 配 操作 码 。 

【 题 2. 40〗 设 某 台 计算 机 有 9 条 指令 ,各 指令 的 使 用 频 度 分 别 为 : 

Ts 52% 1: 14% Ls: 12% L:7% Is: 6% 

Ies5% I1: 2% Ts: 1% 1: 1% 

试 分 别 用 喻 夫 曼 编码 和 2-4-6 等 长 扩展 编码 为 其 操作 码 编码 ,并 分 别 计算 平均 码 长 。 

【 题 2.41】 假设 某 模型 机 有 7 条 指令 ,这 些 指令 的 使 用 频 度 如 下 所 示 。 

Ti: 0. 40 1,: 0. 30 Fa.0, 15 1: 0.05 1s: 0.04 

1: 0.03 11: 0.03 

(1) 计算 这 7 条 指令 的 操作 码 编码 的 最 短 平 均码 长 ; 

(2) 画 出 哈 夫 曼 树 , 写 出 这 7 条 指令 的 哈 夫 曼 编码 ,并 计算 该 编码 的 平均 码 长 和 信息 元 
余 量 。 
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题 解 


1. 概念 题 


【 题 2.1】 解释 下 列 名词 

堆栈 型 机 器 一 一 CPU 中 存储 操作 数 的 单元 是 堆栈 的 机 器 。 

累加 器 型 机 器 一 一 CPU 中 存储 操作 数 的 单元 是 累加 器 的 机 器 。 

通用 寄存 器 型 机 器 一 一 CPU 中 存储 操作 数 的 单元 是 通用 寄存 器 的 机 器 。 

寻 址 方式 一 一 指令 系统 中 形成 所 要 访问 的 数据 地 址 的 方法 。 一 般 来 说 , 寻 址 方式 可 以 
指明 指令 中 的 操作 数 是 一 个 常数 ,一 个 寄存 器 操作 数 或 者 是 一 个 存储 器 操作 数 。 

信息 存储 的 整数 边界 一 一 信息 在 主 存 中 存放 的 起 始 地 址 必须 是 该 信息 宽度 ( 字 节 数 ) 的 
整数 倍 。 

指令 系统 的 完整 性 一 一 在 一 个 有 限 可 用 的 存储 空间 内 ,对 于 任何 可 解 的 问题 ,编制 计算 
程序 时 ,指令 系统 所 提供 的 指令 足够 使 用 。 

指令 系统 的 规整 性 一 一 没有 或 尽 可 能 减少 例外 的 情况 和 特殊 的 应 用 ,所 有 运算 都 能 对 
称 、 均 匀 地 在 存储 器 单元 或 寄存 器 单元 之 间 进 行 。 

数据 表示 一 一 硬件 结构 能 够 识别 ,指令 系统 可 以 直接 调用 的 数据 类 型 。 

指令 系统 的 正 交 性 一 一 指 在 指令 中 各 个 不 同 含义 的 字段 ,如 操作 类 型 .数据 类 型 . 寻 址 
方式 字段 等 ,在 编码 时 应 互 不 相关 、 相 互 独立 。 

PC 相对 寻 址 一 一 在 指令 中 提供 一 个 偏 移 量 ,由 该 偏 移 量 和 程序 计数 器 (PC) 的 值 相 加 
而 得 出 有 效 地 址 。 


2. 选择 题 

【是 2.2〗 答 : D 

【 题 2.3〗 答 : A 

【 题 2.4】 答 : D 

【是 2.5〗 答 : B 

【 题 2.6】 答 : D 

【 题 2.7〗 答 : C 

【 题 2.8〗 答 : C 

【 题 2.9】 答 : B 

3. 填空 题 

【 题 2.10】 答 : 堆栈 .累加 器 、 寄 存 器 

【 题 2.11】 答 : 寄存 器 -寄存 器 型 结构 .寄存 器 -存储 器 型 结构 存储 器 -存储 器 型 结构 
【 题 2.12〗 答 : 完整 性 规整 性 、 正 交 性 、 高 效率 .兼容 性 
【 题 2.13】 答 : 条 件 码 .条 件 寄存 器 .比较 与 分 支 
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【 题 2. 14】 

【是 2. 15】 

【是 2. 16】 

【 题 2. 17】 : 变 长 编码 格式 、 固 定 长 度 编码 格式 、 混 合 型 编码 格式 

【 题 2.18】 : 面向 目标 程序 增强 指令 功能 、 面 向 高 级 语言 的 优化 实现 来 改进 指令 系 
统 、 面向 操作 系统 的 优化 实现 改 进 指令 系统 


: 跳 转 、 分 支 . 过 程 调用 .过 程 返 回 
: 跳 转 、 分 支 
: 2.6、46 


磋 了 驴 了 驴 驴 芒 


4. 简 答题 


【是 2.19】 答 : 区 别 不 同 指令 系统 结构 的 主要 因素 是 CPU 中 用 来 存储 操作 数 的 存储 
单元 。 据 此 可 将 指令 系统 结构 分 为 堆栈 结构 .累加 器 结构 和 通用 寄存 器 结构 。 

【 题 2. 20〗 答 : 主要 体现 在 : 

(1) 寄存 器 的 访问 速度 比 存储 器 快 很 多 。 

(2) 对 编译 器 而 言 ,能 更 加 容易 有效 地 分 配 和 使 用 寄存 器 。 

(3) 寄存 器 可 以 用 来 存放 变量 。 这 能 带 来 许多 好 处 : 四 由 于 寄存 器 比 存储 器 快 , 所 以 
将 变量 分 配给 寄存 器 能 加 快 程序 的 执行 速度 ; @ 能 够 减少 对 存储 器 的 访问 ; @ 可 以 用 更 少 
的 地 址 位 来 对 寄存 器 进行 寻 址 ,从 而 有 效 地 减少 程序 的 目标 代码 所 占用 的 空间 。 

【 题 2.21】 答 : 常见 的 3 种 通用 寄存 器 型 机 器 的 优 缺 点 如 表 2. 3 所 示 。 


表 2.3 常见 的 3 种 通用 寄存 器 型 机 器 的 优 缺 点 
指令 系统 结构 类 型 优 点 缺 ”点 


指令 字 长 固定 ,指令 结构 简洁 ,是 | 与 指令 中 含 存储 器 操作 数 的 指令 系统 结构 相 
寄存 器 -寄存 器 型 | 一 种 简单 的 代码 生成 模型 ,各 种 指 | 比 , 指 令 条 数 多 ,目标 代码 不 够 紧凑 ,因而 程 
令 的 执行 时 钟 周 期 数 相近 序 占用 的 空间 比较 大 


由 于 有 一 个 操作 数 的 内 容 将 被 破坏 ,所 以 指 
可 以 在 ALU 指令 中 直接 对 存储 器 | 令 中 的 两 个 操作 数 不 对 称 。 在 一 条 指令 中 同 
操作 数 进行 引用 ,而 不 必 先 用 load | 时 对 寄存 器 操作 数 和 存储 器 操作 数 进行 纺 

















寄存 器 -存储 器 型 | 指令 进行 加 载 。 容 易 对 指令 进行 | 码 , 有 可 能 限制 指令 所 能 够 表示 的 寄存 器 个 
编码 ,目标 代码 比较 紧凑 数 。 指 令 的 执行 时 钟 周期 数 因 操作 数 的 来 源 
(寄存 器 或 存储 器 ) 不 同 而 差别 比较 大 
指令 字 长 变化 很 大 ,特别 是 3 操作 数 指令 . 
站 针尖 存 信 器 昌 | 目标 代码 最 紧凑 ,不 需要 设置 寄存 | 而 且 每 条 指令 完成 的 工作 也 差别 很 大 。 对 存 
器 来 保存 变量 储 器 的 频繁 访问 会 使 存储 器 成 为 瓶颈 。 这 种 
类 型 的 指令 系统 现在 已 不 用 了 


【 题 2.22】 答 : 指令 系统 功能 设计 。 主 要 有 RISC 和 CISC 两 种 技术 发 展 方向 。 
@ 寻 址 方式 的 设计 。 设置 寻 址 方式 可 以 通过 对 基准 程序 进行 测试 统计 ,查看 各 种 寻 址 方式 
的 使 用 频率 ,根据 使 用 频率 设置 必要 的 寻 址 方式 。@ 操 作 数 表示 和 操作 数 类 型 。 主 要 的 操 
作 数 类 型 和 操作 数 表 示 的 选择 有 浮 点 数据 类 型 . 整 型 数据 类 型 .字符 型 .十进制 数据 类 型 等 。 
@ 寻 址 方式 的 表示 。 可 以 将 寻 址 方式 编码 于 操作 码 中 ,也 可 以 将 寻 址 方式 作为 一 个 单独 的 
字段 来 表示 。@ 指 令 系统 格式 的 设计 。 有 变 长 编码 格式 、 固 定 长 度 编码 格式 和 混合 型 编码 
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格式 3 种 。 
【 题 2.23〗 答 : 信息 炉 的 含义 是 : 已 知 n 个 码 点 的 使 用 频 度 p;,i 二 1,2,…,n, 用 二 
进 制 数 对 个 码 点 编码 的 最 短 平 均码 长 为 : 


H =— 2 pilogep, 

各 种 优化 编码 方法 都 可 得 出 实际 编码 的 平均 码 长 二 ,可 以 由 互 得 出 不 同 编码 的 信息 宛 
余 量 R==(L 一 HH)/L。 通 过 比较 R 的 值 来 衡量 不 同 编码 的 优 劣 。 

【 题 2.24】 答 : 在 指令 系统 结构 中 采用 多 种 寻 址 方式 可 以 显著 地 减少 程序 的 指令 条 
数 。 但 这 同时 也 可 能 增加 实现 的 复杂 度 和 使 用 这 些 寻 址 方式 的 指令 的 执行 时 钟 周 期 数 
(CCPI) 。 

【 题 2. 25】 答 : 表示 寻 址 方式 有 两 种 常用 的 方法 : 四 将 寻 址 方式 编 于 操作 码 中 ,操作 
码 在 描述 指令 的 同时 也 描述 相应 的 寻 址 方式 。 这 种 方式 译 码 快 ,但 操作 码 和 寻 址 方式 的 结 
合 不 仅 增加 了 指令 的 条 数 ,导致 了 指令 的 多 样 性 ,而 且 增加 了 CPU 对 指令 译 码 的 难度 。 
@ 为 每 个 操作 数 设置 一 个 地 址 描述 符 , 由 该 地 址 描述 符 表 示 相 应 操作 数 的 寻 址 方式 。 这 种 
方式 译 码 较 慢 ,但 操作 码 和 寻 址 独立 ,易于 指令 扩展 。 

【 题 2.26】 答 : 规整 性 主要 包括 对 称 性 和 均匀 性 。 对 称 性 是 指 所 有 与 指令 系统 有 关 的 
存储 单元 的 使 用 、 操 作 码 的 设置 等 都 是 对 称 的 。 均 匀 性 是 指 对 于 各 种 不 同 的 操作 数 类 型 . 字 
长 ,操作 种 类 和 数据 存储 单元 ,指令 的 设置 都 要 同等 对 待 。 

【 题 2.27】 答 : 当 各 种 事件 发 生 的 概率 不 均等 时 ,可 以 对 发 生 概 率 最 高 的 事件 用 最 短 
的 位 数 ( 时 间 ) 来 表示 (处 理 ) ,而 对 于 出 现 概 率 较 低 的 事件 , 则 可 以 用 较 长 的 位 数 (时 间 ) 来 表 
示 ( 处 理 ), 从 而 使 总 的 平均 位 数 (时 间 ) 缩 短 。 

【 题 2.28】 答 : 四 变 长 编码 格式 。 如 果 系统 结构 设计 者 感 兴趣 的 是 程序 的 目标 代码 大 
小 ,而 不 是 性 能 ,就 可 以 采用 变 长 编码 格式 。 四 固定 长 度 编码 格式 。 如 果 感 兴趣 的 是 性 能 ， 
而 不 是 程序 的 目标 代码 大 小 , 则 可 以 选择 固定 长 度 编码 格式 。 回 混合 型 编码 格式 。 需 要 兼 
顾 降低 目标 代码 长 度 和 降低 译 码 复杂 度 时 ,可 以 采用 混合 型 编码 格式 。 

【 题 2.29】 答 : 操作 数 的 类 型 主要 有 整数 (定点 ). 浮 点 .十 进 制 . 字 符 .字符 串 向量. 堆 
栈 等 。 操 作 数 类 型 有 两 种 表示 方法 : 四 操作 数 的 类 型 由 操作 码 的 编码 指定 ,这 是 最 常见 的 
一 种 方法 ; @ 数 据 可 以 附 上 由 硬件 解释 的 标记 ,由 这 些 标记 指定 操作 数 的 类 型 ,从 而 选择 适 
当 的 运算 。 

【 题 2. 30〗 答 : 数据 结构 是 指 由 软件 进行 处 理 和 实现 的 各 种 数据 类 型 。 数 据 结构 研究 
的 是 这 些 数据 类 型 的 逻辑 结构 与 物理 结构 之 间 的 关系 ,并 给 出 相应 的 算法 。 数 据 表 示 是 指 
计算 机 硬件 能 够 直接 识别 .指令 系统 可 以 直接 调用 的 数据 类 型 。 它 一 般 是 所 有 数据 类 型 中 
最 常用 、 相 对 比较 简单 .用 硬件 实现 比较 容易 的 几 种 。 

确定 和 引入 数据 表示 的 基本 原则 : 四 系统 的 效率 是 否 提高 ,是 否 减少 了 实现 时 间 和 存 
储 空间 ; @@ 通 用 性 和 利用 率 是 否 提 高 。 

【是 2.31】 答 : CPU 性 能 公式 : CPU 时 间 王 ICXCPIXT 

其 中 ,IC 为 目标 程序 被 执行 的 指令 条 数 ,CPI 为 指令 平均 执行 周期 数 ,T 是 时 钟 周 期 的 
时 间 。 
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相同 功能 的 CISC 目标 程序 的 指令 条 数 ICesc 少 于 RISC 的 ICasc ,但 是 CISC 的 CPIcsc 
和 Tesc 都 大 于 RISC 的 CPIksc 和 Tasc ,因此 ,CISC 目标 程序 的 执行 时 间 比 RISC 的 更 长 。 

【 题 2.32】 答 : CISC 结构 的 指令 系统 中 ,各 种 指令 的 使 用 频率 相差 悬殊 。@CISC 
结构 指令 系统 的 复杂 性 带 来 了 计算 机 系统 结构 的 复杂 性 ,这 不 仅 增加 了 研制 时 间 和 成 本 ,而 
且 容 易 造 成 设计 错误 。@)CISC 结构 指令 系统 的 复杂 性 给 VLSI 设计 增加 了 很 大 负担 ,不 利 
于 单 片 集成 。@CISC 结构 的 指令 系统 中 ,许多 复杂 指令 需要 很 复杂 的 操作 ,因而 运行 速度 
慢 。@ 在 CISC 结构 的 指令 系统 中 ,由 于 各 条 指令 的 功能 不 均衡 性 ,不 利于 采用 先进 的 计算 
机 系统 结构 技术 (如 流水 技术 ) 来 提高 系统 的 性 能 。 

【 题 2.33】〗 答 : 选取 使 用 频率 最 高 的 指令 ,并 补充 一 些 最 有 用 的 指令 ; 四 每 条 指令 
的 功能 应 尽 可 能 简单 ,并 在 一 个 机 器 周期 内 完成 ; 四 所 有 指令 长 度 均 相同 ; 四 只 有 load 和 
store 操作 指令 才 访 问 存储 器 ,其 他 指令 操作 均 在 寄存 器 之 间 进 行 ; @ 以 简单 有 效 的 方式 支 
持 高 级 语言 。 

【 题 2.34】 答 : 比较 结果 见 表 2. 4。 


表 2.4 CISC 和 RISC 的 比较 

















比较 内 容 CISC RISC 
指令 格式 变 长 编码 定 长 编码 
寻 址 方式 各 种 都 有 只 有 load/store 指令 可 以 访 存 
CPI 远 远大 于 1 为 1 
5. 应 用 题 
【 题 2. 35】 


解 : 由 给 出 指令 的 使 用 频 度 ,得 到 两 种 哈 夫 曼 树 如 图 2. 2 和 图 2. 3 所 示 。 








STO JOM 


图 2.2 哈 夫 曼 树 (1) 
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SHR STP 


图 2.3 哈 夫 曼 树 (2) 
9 条 指令 操作 码 如 表 2.5 所 示 。 
表 2.5 9 条 指令 操作 码 





























指 令 使 用 频 度 | 哈 夫 曼 编码 1 | 哈 夫 曼 编码 2 | 3/3/3 扩展 编码 | 2/7 扩展 编码 
ADD 0. 43 0 0 00 00 
CLA 0.22 10 100 01 01 

SUB 0.13 EL 101 10 1000 
JMP 0.07 E00 1100 1100 1001 
JOM 0.06 11101 103 1101 1010 
STO 0.05 EO Yl 1110 1011 
CIL 0.02 了 11110 111100 1100 
SHR 0.01 L 111110 LLYOT 1101 
STP 0.01 有 Lu 20 1110 

















哈 夫 曼 编码 的 平均 码 长 : 2. 42 位 。3/3/3 扩展 编码 的 平均 码 长 : 2. 52 位 。2/7 扩展 编 
码 的 平均 码 长 为 : 2.70 位 。 

【 题 2. 36】 

解 : 根据 题 意 ,两 地 址 指令 格式 如 图 2.4 所 示 。 

其 中 ,4 位 操作 码 可 表示 16 个 (2*) 短 操作 码 。 两 地 址 指令 共有 A 条 ,占用 了 16 个 短 码 
点 中 的 A 个 ,剩余 的 (16 一 A) 个 码 点 均 可 用 作 扩 展 标志 。 

单 地 址 指令 格式 如 图 2. 5 所 示 。 
































4 位 6 位 6 位 10 位 6 位 
操作 码 | 地 址 码 1 地 址 码 2 扩展 操作 码 地 址 码 
图 2.4 两 地 址 指令 格式 图 2.5 单 地 址 指令 格式 


即 每 一 个 扩展 标志 都 可 使 用 一 个 6 位 的 地 址 字段 (两 地 址 指令 中 的 地 址 码 1) 进 行 扩 
展 , 从 而 得 到 2 个 扩展 操作 码 。 所 以 , 单 地 址 指令 最 多 可 有 (16 一 A)X2" 条 。 
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【 题 2. 37】 

解 : 三 地 址 指令 的 格式 如 图 2.6 所 示 。 

3 位 3 位 3 位 3 位 
操作 码 | 地 址 码 1 | 地 址 码 2 | 地 址 码 3 




















2.6 三 地 址 指令 格式 


操作 码 为 3 位 长 ,可 表示 8(2?) 个 码 点 ,用 4 个 码 点 表示 4 条 三 地 址 指令 , 剩 下 的 4 个 码 
点 作为 扩展 标志 。 

单 地 址 指令 只 需 用 地 址 码 3 字段 表示 地 址 ,其 余 6 位 地 址 码 可 用 于 表示 操作 码 。6 位 
长 的 扩展 部 分 可 表示 64(2) 个 码 点 ,有 4 个 3 位 长 的 扩展 标志 ,所 以 , 共 可 表示 9 位 长 的 码 
点 4X2 = 二 256 个 。 若 用 255 个 码 点 表示 255 条 单 地 址 指令 操作 码 , 则 还 余下 一 个 码 点 作为 
扩展 标志 。 

零 地 址 指令 不 需要 地 址 码 , 地 址 码 3 的 3 位 可 用 于 表示 零 地 址 指令 的 操作 码 。3 位 长 
的 扩展 部 分 可 表示 8(23) 个 码 点 。 但 是 ,9 位 长 的 码 点 只 剩 下 一 个 作为 扩展 标志 ,因此 ,只 能 
表示 8 条 零 地 址 指令 操作 码 ,不 能 满足 题目 中 的 数量 要 求 。 

如 果 单 地 址 指令 为 254 条 , 则 9 位 长 的 码 点 余下 2 个 码 点 作为 扩展 标志 ,再 扩展 3 位 后 
正好 表示 16 条 零 地 址 指令 操作 码 。 

【 题 2. 38】 

解 : (1) 哈 夫 曼 树 如 图 2.7 所 示 。 





图 2.7 哈 夫 曼 树 


哈 夫 曼 编码 如 表 2. 6 所 示 。 
表 2.6 哈 夫 曼 编码 














指 令 使 用 频 度 p; 哈 夫 曼 编 码 3/4 扩展 编码 
I 0.35 00 00 
I 0.25 01 01 
I 0.20 10 10 
L 0.10 110 1100 











区 9 音 
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续 表 
指令 使 用 频 度 哈 夫 曼 编码 3/4 扩展 编码 
五 0.05 和 1101 
I 0.03 人 1110 
I 0.02 于 和 











7 条 指令 的 操作 码 平均 码 长 : L 二 》) pil; = 2.35( 位 ) 
(2) 3 条 8 位 长 的 寄存 器 -寄存 器 型 指令 的 格式 如 图 2. 8 所 示 。 
其 中 ,8 个 通用 寄存 器 需 用 3 位 寄存 器 号 来 编 址 。2 位 操作 码 字段 表示 3 条 指令 操作 
码 ,一 个 码 点 作为 扩展 标志 。 
4 条 16 位 长 的 寄存 器 -存储 器 型 变 址 寻 址 指令 的 格式 如 图 2. 9 所 示 。 
2 位 3 位 3 位 4 位 3 位 1 位 8 位 
操作 码 | 寄存 器 号 1 








寄存 器 号 2 操作 码 | 寄存 器 号 | 变 址 寄存 器 号 





图 2.8 寄存 器 -寄存 器 型 指令 的 格式 图 2.9 寄存 器 -存储 器 型 变 址 寻 址 指令 的 格式 


其 中 ,两 个 变 址 寄存 器 用 1 位 变 址 寄存 器 号 来 编 址 ,8 位 偏 移 量 表示 变 址 范围 一 127 一 
十 127。4 位 操作 码 中 ,扩展 标志 占 2 位 ,另外 2 位 正好 表示 4 条 指令 的 操作 码 。 

这 样 得 到 3/4 扩展 编码 如 表 2.6 所 示 。 

【 题 2. 39】 

解 : (1) 二 地 址 指令 中 ,用 12 位 表示 2 个 6 位 的 地 址 码 ,操作 码 字 段 为 4 位 ,可 表示 16 
个 码 点 ,其 中 15 个 (0000 一 1110) 用 来 表示 15 条 二 地 址 指令 操作 码 ,一 个 码 点 1111 作为 扩 
展 标志 。 

要 求 单 地 址 指令 和 零 地 址 指令 的 条 数 基本 相等 ,那么 ,可 以 采用 15/63/64 扩展 编码 , 即 
单 地 址 指令 63 条 , 零 地 址 指令 64 条 。 编 码 如 图 2. 10 所 示 。 

(2) 要 求 3 类 指令 条 数 的 比例 为 1 : 9 : 9, 那么 3 类 指令 条 数 可 以 分 别 为 14 条、126 条 
和 128 条 。 编 码 如 图 2. 11 所 示 。 


0000 
| 上 aa 
101 


1110 000000 
wn oi 
; 15 条 二 地 址 指令 操作 但 FE 指 FE 
加 } 上 令 操 作 | 410 1004) 126 条 单 地 址 指令 操作 码 
1111 000000 : 
1111 111101 

he 单 地 址 指令 操作 码 1111 111110 000000 
1111 111110 : 
1111 111111 000000 1111 111110 111111 


1111 111111 


图 2. 


F 条 零 地 址 指令 操作 码 
111111 


10 15/63/64 扩展 编码 


111 111111 000000 128 条 零 地 址 指令 操作 码 
1 1 M1 


图 2.11 指令 操作 码 
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【 题 2. 40】 
解 : 哈 夫 曼 树 如 图 2. 12 所 示 。 





2.12 了 哈 夫 曼 树 


由 哈 夫 曼 树 生成 的 哈 夫 曼 编 码 和 2-4-6 扩展 编码 如 表 2.7 所 示 。 
表 2.7 哈 夫 曼 编 码 和 2-4-6 扩展 编码 





























指令 使 用 频 度 p; 哈 夫 曼 编码 2-4-6 编码 
下 0.52 0 00 

下 0. 14 100 01 

下 0.12 110 10 

i 0.07 1010 1100 

末 0.06 I 1101 

起 0.05 TO 1110 

站 0.02 11110 111100 
站 0.01 111110 111101 
六 0.01 下 二 二 三 于 111110 











哈 夫 曼 编码 的 平均 码 长 ; L; 一 >) pil; 一 2.06( 位 ) 


2-4-6 扩展 编码 的 平均 码 长 ; L, 二 >) pil; 一 2. 52( 位 ) 


【 题 2. 41】 
解 : 


(1) H =— 2) pilogsp; = 2.17 

(2) 其 哈 夫 曼 树 如 图 2. 13 所 示 , 该 树 的 每 个 叶 结 点 分 别 对 应 于 一 条 指令 。 在 该 树 中 
对 每 个 结 点 向 下 的 两 个 分 支 ,分 别 用 二 进 制 *1” 和 “0” 来 表示 。 

从 该 哈 夫 曼 树 可 以 很 容易 地 写 出 哈 夫 曼 编码 。 表 2. 8 中 列 出 了 所 有 指令 的 哈 夫 曼 
编码 。 
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0.03 003] 004| [00s Bos [030 0.40 
万 因 E 三 5 看 





























图 2.13 哈 夫 曼 树 举 例 
表 2.8 操作 码 的 哈 夫 曼 编 码 



































指令 频 度 户 操作 码 使 用 哈 夫 曼 编 码 操作 码 长 度 4 
I 0.40 0 1 
la 0. 30 10 2 
了 0. 15 110 3 
1 0.05 11100 所 
I; 0.04 1101 区 
Ts 0.03 110 久 
I 0.03 JJ 5 

该 哈 夫 曼 编码 的 平均 码 长 是 : 
7 
L = Bp; = 2.20 
i=1 
dD 


2.20 


第 3 章 流水 线 技术 


3.1 基本 要 求 与 难点 


3.1.1 基本 要 求 


(1) 掌握 有 关 流 水 线 的 基本 概念 。 

(2) 掌握 流水 线 的 工作 原理 ,了 解 如 何 从 不 同 的 角度 对 流水 线 进行 分 类 。 

(3) 理解 流水 线 的 各 项 性 能 指标 ,能 熟练 地 用 时 空 图 或 公式 计算 吞吐 率 、 加 速 比 和 效 
率 。 能 熟练 地 画 出 时 空 图 。 

(4) 掌握 消除 流水 线 瓶颈 的 方法 。 

(5) 熟练 掌握 单 功 能 非 线 性 流水 线 的 最 优 调 度 方法 。 能 熟练 地 画 出 状态 转换 图 ,并 根 
据 状态 转换 图 写 出 最 优 调度 方案 。 了 解 双 功 能 非 线性 流水 线 的 最 优 调度 方法 。 

(6) 掌握 经 典 5 段 流水 线 的 结构 。 

(7) 理解 3 种 相关 和 3 种 冲突 的 概念 ,掌握 解决 结构 冲突 数据 冲突 和 控制 冲突 的 方法 ， 
特别 是 : 如 何 利用 定向 技术 来 解决 数据 冲突 ? 如 何 用 猜测 法 和 延迟 分 支 来 解决 控制 冲突 ? 

(8) 掌握 基本 的 MIPS 流水 线 的 组 成 以 及 在 各 流水 段 完 成 的 操作 。 掌 握 对 该 流水 线 进 
行 改进 后 (把 分 支 延 迟 减少 为 一 个 时 钟 周期 )IF 段 和 ID 段 的 操作 的 变化 。 


Ke :难点 
(1) 流水 线 时 空 图 的 画 法 ,如 何 计算 流水 线 的 振 吐 率 、 加 速 比 和 效率 ? 
(2) 单 功能 非 线性 流水 线 的 最 优 调度 方法 。 


(3) 如 何 解决 结构 冲突 、 数 据 冲突 和 控制 冲突 ? 
(4) 基本 的 MIPS 流水 线 的 各 段 完 成 的 操作 。 


3.2 知识 要 点 


3.2.1 流水 线 的 基本 概念 


1. 什么 是 流水 线 
在 计算 机 中 ,把 一 个 重复 的 过 程 分 解 为 若干 个 子 过 程 ,每 个 子 过 程 由 专门 的 功能 部 件 来 
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实现 。 把 多 个 处 理 过 程 在 时 间 上 错开 ,依次 通过 各 功能 段 , 这 样 ,每 个 子 过 程 就 可 以 与 其 他 
的 子 过 程 并 行进 行 。 这 就 是 流水 线 技术 。 流 水 线 中 的 每 个 子 过 程 及 其 功能 部 件 称 为 流水 线 
的 级 或 段 ,流水 线 的 段 数 称 为 流水 线 的 深度 。 

一 般 采 用 时 空 图 来 描述 流水 线 的 工作 过 程 。 时 空 图 的 横 坐 标 表示 时 间 , 纵 坐标 表示 空 
间 , 即 流水 线 的 段 。 

流水 线 技术 具有 以 下 特点 。 

(1) 流水 线 实际 上 是 把 一 个 大 的 处 理 功能 部 件 分 解 为 多 个 独立 的 功能 部 件 ,并 依靠 它 
们 的 并 行 工 作 来 提高 吞吐 率 。 

(2) 流水 线 中 各 段 的 时 间 应 尽 可 能 相等 ,否则 将 引起 流水 线 堵塞 和 断 流 。 因 为 时 间 最 
长 的 段 将 成 为 流水 线 的 瓶颈 。 

(3) 流水 线 每 个 段 的 后 面 都 要 有 一 个 缓冲 寄存 器 ( 锁 存 器 ) , 称 为 流水 寄存 器 。 

(4) 流水 技术 适合 于 大 量 重复 的 时 序 过 程 。 

(5) 流水 线 需要 有 通过 时 间 和 排 空 时 间 。 它 们 分 别 是 指 第 一 个 任务 和 最 后 一 个 任务 从 
进入 流水 线 到 流出 结果 的 那个 时 间 段 。 在 这 两 个 时 间 段 中 ,流水 线 都 不 是 满 负荷 工作 。 


2. 流水 线 的 分 类 


流水 线 可 以 从 不 同 的 角度 和 观点 来 分 类 。 下 面 是 几 种 常见 的 分 类 。 

1) 部 件 级 ,处 理 机 级 及 系统 级 流水 线 

这 是 按照 流水 技术 用 于 计算 机 系统 的 等 级 不 同 来 分 的 。 

部 件 级 流水 线 是 把 处 理 机 中 的 部 件 进行 分 段 , 再 把 这 些 部 件 分 段 相互 连接 而 成 。 它 使 
得 运算 操作 能 够 按 流水 方式 进行 。 这 种 流水 线 也 称 为 运算 操作 流水 线 。 

处 理 机 级 流水 线 又 称 指令 流水 线 。 它 是 把 指令 的 执行 过 程 按照 流水 方式 进行 处 理 , 即 
把 一 条 指令 的 执行 过 程 分 解 为 若干 个 子 过程 ,每 个 子 过 程 在 独立 的 功能 部 件 中 执行 。 

系统 级 流水 线 是 把 多 个 处 理 机 串 行 连接 起 来 ,对 同一 数据 流 进行 处 理 , 每 个 处 理 机 完成 
整个 任务 中 的 一 部 分 。 前 一 个 处 理 机 的 输出 结果 存 人 存储 器 中 ,作为 后 一 个 处 理 机 的 输入 。 
这 种 流水 线 又 称 为 宏 流 水 线 。 

2) 单 功能 流水 线 与 多 功能 流水 线 

单 功能 流水 线 是 指 流水 线 的 各 段 之 间 的 连接 固定 不 变 、 只 能 完成 一 种 固定 功能 的 流水 
线 。 多 功能 流水 线 是 指 各 段 可 以 进行 不 同 的 连接 ,以 实现 不 同 功能 的 流水 线 。 

3) 静态 流水 线 与 动态 流水 线 

静态 流水 线 是 指 在 同一 时 间 内 ,多 功能 流水 线 中 的 各 段 只 能 按 同 一 种 功能 的 连接 方式 
工作 的 流水 线 。 当 流水 线 要 切换 到 另 一 种 功能 时 ,必须 等 前 面 的 任务 都 流出 流水 线 之 后 , 才 

动态 流水 线 是 指 在 同一 时 间 内 ,多 功能 流水 线 中 的 各 段 可 以 按照 不 同 的 方式 连接 ,同时 
执行 多 种 功能 的 流水 线 。 

一 般 来 说 ,动态 流水 线 的 效率 比 静 态 流 水 线 的 高 。 但 是 ,动态 流水 线 的 控制 要 复杂 
得 多 。 

4) 线性 流水 线 与 非 线 性 流水 线 

线性 流水 线 是 指 各 段 串 行 连接 .没有 反馈 回路 的 流水 线 。 数 据 通过 流水 线 中 的 各 段 时 ， 
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每 一 个 段 最 多 只 流 过 一 次 。 非 线性 流水 线 是 指 各 段 除了 有 串 行 的 连接 外 ,还 有 反馈 回路 的 
流水 线 。 在 非 线性 流水 线 中 ,一 个 重要 的 问题 是 确定 什么 时 候 向 流水 线 引进 新 的 任务 ,才能 
使 该 任务 不 会 与 流水 线 中 的 任务 发 生 争 用 流水 段 的 冲突 。 这 就 是 非 线性 流水 线 的 调度 
问题 。 

5) 顺序 流水 线 与 乱 序 流水 线 

这 是 根据 流水 线 中 任务 流入 和 流出 的 顺序 是 否 相同 来 分 的 。 在 顺序 流水 线 中 ,流水 线 
输出 端 任务 流出 的 顺序 与 输入 端 任务 流入 的 顺序 完全 相同 。 而 在 乱 序 流水 线 中 ,流水 线 输 
出 端 任务 流出 的 顺序 与 输入 端 任务 流入 的 顺序 可 以 不 同 ,允许 后 进入 流水 线 的 任务 先 完成 。 
这 种 流水 线 又 称 为 无 序 流水 线 或 错 序 流水 线 。 

通常 把 指令 执行 部 件 中 采用 了 流水 线 的 处 理 机 称 为 流水 线 处 理 机 。 如 果 处 理 机 具有 向 
量 数 据 表示 和 向 量 指 令 , 则 称 之 为 向 量 流水 处 理 机 ,简称 向 量 机 ; 否则 就 称 之 为 标量 流水 处 
理 机 。 


3.2.2 流水 线 的 性 能 指标 


衡量 流水 线性 能 的 主要 指标 有 吞吐 率 、 加 速 比 和 效率 。 
1. 流水 线 的 吞吐 率 


流水 线 的 吞吐 率 TP(Through Put) 是 指 在 单位 时 间 内 流水 线 所 完成 的 任务 数量 或 输 
出 结果 的 数量 。 
Tpo 7 < 
TP 一 未 《3 1 
其 中 ,n 为 任务 数 ,T 是 处 理 完成 n 个 任务 所 用 的 时 间 。 
1) 各 段 时 间 均 相等 的 流水 线 


7 = n 
ke (302) 


其 中 ,At 为 各 段 的 时 间 ,k 为 段 数 。 

2) 各 段 时 间 不 完全 相等 的 流水 线 

各 段 时 间 不 等 的 流水 线 的 实际 吞吐 率 为 : 

TP= 一 了 (3:3 
DY Att Gn — Dmax(CAn, Ats see, Ati) 

其 中 ,Aii 为 第 i 段 的 时 间 , 共 有 个 段 。 分 母 中 的 第 一 部 分 是 流水 线 完 成 第 一 个 任务 所 用 
的 时 间 ,第 二 部 分 是 完成 其 余 ”一 1 个 任务 所 用 的 时 间 。 

流水 线 的 最 大 吞吐 率 为 : 

1 


Thanx 一 max( Ati Atz，… Att) pA) 


从 式 (3.3) 和 式 (3.4) 可 以 看 出 , 当 流 水 线 各 段 的 时 间 不 完全 相等 时 ,流水 线 的 最 大 吞吐 
率 和 实际 吞吐 率 由 时 间 最 长 的 那个 段 决定 ,这 个 段 就 成 了 整 条 流水 线 的 瓶颈 。 
可 以 用 以 下 两 种 方法 来 消除 瓶颈 段 。 
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(1) 细 分 瓶颈 段 。 这 是 把 流水 线 中 的 瓶颈 段 切 分 为 几 个 独立 的 功能 段 , 从 而 使 流水 线 
各 段 的 处 理 时 间 都 相等 。 

(2) 重复 设置 瓶颈 段 。 如 果 无 法 把 瓶颈 段 再 细 分 , 则 可 以 采用 重复 设置 瓶颈 段 的 方法 
来 解决 问题 。 重 复 设置 的 段 并 行 工作 ,在 时 间 上 依次 错开 处 理 任务 。 


2. 流水 线 的 加 速 比 


流水 线 的 加 速 比 是 指使 用 顺序 处 理 方式 处 理 一 批 任务 所 用 的 时 间 ( 设 为 了,) 与 按 流水 
处 理 方式 处 理 同一 批 任 务 所 用 的 时 间 ( 设 为 Ti) 之 比 : 
T 


S 一 元 《3.5) 
k 
假设 流水 线 各 段 时 间 相等 ,都 是 At, 则 该 流水 线 的 实际 加 速 比 为 : 
i 7 砍 
S 一 pp (3.6) 


当 流 水 线 的 各 段 时 间 不 完全 相等 时 ,一 条 上 段 流水 线 完 成 个 连续 任务 的 实际 加 速 
比 为 : 








号 四 一 《3 
Ai 十 (7 一 1)max(Atl ,Atz Ai) 


3. 流水 线 的 效率 


流水 线 的 效率 即 流 水 线 设备 的 利用 率 , 它 是 指 流水 线 中 的 设备 实际 使 用 时 间 与 整个 运 
行 时 间 的 比值 。 如 果 各 有 段 时 间 相 等 , 则 各 上段 的 效率 是 相同 的 , 且 都 等 于 整 条 流水 线 的 效率 。 








人 n 
pt 
在 各 段 时 间 不 等 的 情况 下 ,k 段 流 水 线 连续 处 理 个 任务 的 流水 线 效率 为 : 
ne DY AG 
E =! (3.8) 
二 > An 十 (一 1D)。max(An Ase | 
计算 流水 线 效 率 的 一 般 公式 可 以 表示 为 : 
EE 二 2 个 任务 实际 占用 的 时 空 区 的 面积 a 








k 个 段 总 的 时 空 区 的 面积 
夯 出 流水 线 的 时 空 图 ,然后 根据 式 (3.9) 来 计算 效率 ,是 一 种 比较 直观 通用 的 方法 。 对 
于 线性 流水 线 、 非 线性 流水 线 、 多 功能 流水 线 、 任 务 不 连续 的 情况 等 都 适用 。 


4. 流水 线 设 计 中 的 若干 问题 


1) 瓶颈 问题 
当 流 水 线 各 段 时 间 不 相等 时 ,时 间 最 大 的 那个 段 就 成 了 瓶颈 。 机 器 的 时 钟 周期 取决 于 
这 个 瓶颈 段 的 延迟 时 间 。 因 此 ,在 设计 流水 线 时 ,要 尽 可 能 使 各 段 时 间 相 等 。 
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2) 流水 线 的 额外 开销 

流水 线 的 额外 开销 由 两 部 分 构成 : 流水 寄存 器 延迟 和 时 钟 偏 移 开销 。 增 加 流水 线 的 段 
数 可 以 提高 流水 线 的 性 能 ,但 是 流水 线段 数 的 增加 是 受到 这 些 额 外 开销 限制 的 。 

3) 冲突 问题 

如 果 流 水 线 中 的 指令 或 数据 之 间 存 在 关联 , 则 它们 可 能 要 相互 等 待 ,引起 访问 冲突 , 造 
成 流水 线 的 停顿 。 如 何 处 理 好 冲突 问题 ,是 流水 线 设计 中 要 解决 的 重要 问题 之 一 。 


3.2.3 非 线性 流水 线 的 调度 


1. 单 功能 非 线 性 流水 线 的 最 优 调度 


向 一 条 非 线性 流水 线 的 输入 端 连续 输入 两 个 任务 之 间 的 时 间 间 隔 称 为 非 线性 流水 线 的 
启动 距离 。 而 会 引起 非 线性 流水 线 功 能 段 使 用 冲突 的 启动 距离 则 称 为 禁用 启动 距离 。 启 动 
距离 和 禁用 启动 距离 一 般 都 用 时 钟 周期 数 来 表示 ,是 一 个 正 整数 。 

对 流水 线 的 任务 进行 优化 调度 和 控制 的 步骤 如 下 。 

(1) 根据 预约 表 写 出 禁止 表 正 。 

(2) 根据 禁止 表 正 写 出 初始 冲突 向 量 Co 一 (Ccwcxi…ci…czcl)。 

(3) 根据 初始 冲突 向 量 Co 画 出 状态 转换 图 。 

令 CG 二 0 , 按 下 式 计算 新 的 冲突 向 量 : 

SHRY(C) V Co。 C3: 10) 
其 中 ,SHR2 表示 逻辑 右 移 ) 位 。 对 于 所 有 人 允许 的 时 间 间 隔 都 按 上 述 步骤 求 出 其 新 的 冲突 
向 量 ,并且 把 新 的 冲突 向 量 作为 当前 冲突 向 量 , 反 复 使 用 上 述 步 又, 直到 不 再 产生 不 同 的 冲 
突 向 量 为 止 。 由 此 可 以 画 出 用 冲突 向 量 表示 的 流水 线 状 态 转移 图 。 

(4) 根据 状态 转换 图 写 出 最 优 调度 方案 。 

由 初始 状态 出 发 ,任何 一 个 闭合 回路 即 为 一 种 调度 方案 。 为 了 找到 最 佳 的 调度 方案 ,只 
要 列 出 所 有 可 能 的 调度 方案 ,计算 出 每 种 方案 的 平均 时 间 间 隔 , 从 中 找 出 其 最 小 者 即 可 。 


2. 多 功能 非 线性 流水 线 的 调度 


双 功 能 ( 设 为 功能 A 和 B) 非 线性 流水 线 的 最 优 调度 方法 类 似 于 单 功能 非 线性 流水 线 
的 调度 方法 。 只 是 其 状态 转移 图 中 结 点 状态 的 表示 不 同 , 是 由 两 个 冲突 向 量 构成 的 冲突 和 矩 
阵 。 其 初始 结 点 有 两 个 ,分 别 对 应 于 第 一 个 任务 是 A 类 和 B 类 的 情况 。 


3.2.4 流水 线 的 相关 与 冲突 


1. 一 个 经 典 的 5 段 流水 线 


先 考 虑 在 非 流水 情况 下 是 如 何 实现 的 。 我 们 把 一 条 指令 的 执行 过 程 分 为 以 下 5 个 时 钟 
周期 。 

1) 取 指 令 周 期 (IF) 

以 程序 计数 器 PC 中 的 内 容 作 为 地 址 ,从 存储 器 中 取出 指令 并 放 入 指令 寄存 器 IR; 同 
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时 PC 值 加 4( 假 设 每 条 指令 占 4 个 字 节 ) ,指向 顺序 的 下 一 条 指令 。 

2) 指令 译 码 / 读 寄存 器 周期 (ID) 

对 指令 进行 译 码 ,并 用 IR 中 的 寄存 器 地 址 去 访问 通用 寄存 器 组 , 读 出 所 需 的 操作 数 。 

3) 执行 /有 效 地 址 计算 周期 (EX) 

(1) load 和 store 指令 : ALU 把 指定 寄存 器 的 内 容 与 偏 移 量 相 加 ,形成 访 存 有 效 地 址 。 

(2) ALU 指令 : ALU 对 从 通用 寄存 器 组 中 读 出 的 数据 进行 运算 。 

(3) 分 支 指令 : ALU 把 偏 移 量 与 PC 值 相 加 ,形成 转移 目标 的 地 址 。 同 时 ,判断 分 支 是 
否 成 功 。 

4) 存储 器 访问 /分 支 完 成 周期 (MEM) 

(1) load 和 store 指令 : 根据 有 效 地 址 从 存储 器 中 读 出 相应 的 数据 (load 指令 ); 或 者 是 
把 指定 的 数据 写 人 有 效 地 址 所 指出 的 存储 器 单元 (store 指令 )。 

(2) 分 支 指令 : 如 果 分 支 “成 功 ”, 就 把 在 前 一 个 周期 中 计算 好 的 转移 目标 地 址 送 入 
PC。 分 支 指令 执 行 完成 。 否 则 ,就 不 进行 任何 操作 。 

5) 写 回 周期 (WB) 

把 结果 写 入 通用 寄存 器 组 。 对 于 ALU 运算 指令 来 说 ,这 个 结果 来 自 ALU, 而 对 于 
load 指令 来 说 ,这 个 结果 是 来 自 存储 器 。 

把 上 述 实现 方案 改造 为 流水 线 实现 是 比较 简单 的 ,只 要 把 上 面 的 每 一 个 周期 作为 一 个 
流水 段 ,并 在 各 段 之 间 加 上 锁 存 器 ,就 构成 了 一 个 经 典 的 5 段 流水 线 ,如 图 3. 1 所 示 。 这 些 
锁 存 器 称 为 流水 线 寄存 器 。 如 果 在 每 个 时 钟 周期 启动 一 条 指令 , 则 采用 流水 方式 后 的 性 
能 将 是 非 流 水 方式 的 5 倍 。 当 然 ,事情 也 没 这 么 简单 ,还 要 解决 好 流水 处 理 带 来 的 一 些 
问题 。 


| ' ! ! 
IF 段 ID 段 1! EX 段 1 MEM 段 ! WB 上 段 
cle [= he pes 


4 
图 3.1 一 个 经 典 的 5 段 流 水 线 


第 一 ,要 保证 不 会 在 同一 时 钟 周 期 要 求 同 一 个 功能 段 做 两 件 不 同 的 工作 。 

第 二 ,为 了 避免 IF 段 的 访 存 ( 取 指 令 ) 与 MEM 段 的 访 存 ( 读 / 写 数据 ) 发 生 冲 突 ,必须 采 
用 分 离 的 指令 存储 器 和 数据 存储 器 ,或 者 是 仍 采用 一 个 公用 的 存储 器 ,但 要 采用 分 离 的 指令 
Cache 和 数据 Cache。 一 般 是 采用 后 者 。 

第 三 ,ID 段 要 对 通用 寄存 器 组 进行 读 操作 ,而 WB 段 要 对 通用 寄存 器 组 进行 写 操作 ,为 
了 解决 对 同一 通用 寄存 器 的 访问 冲突 ,我们 把 写 操作 安排 在 时 钟 周期 的 前 半 拍 完成 ,把 读 操 
作 安 排 在 后 半 拍 完成 。 

第 四 ,没有 考虑 PC 的 问题 。 在 每 个 时 钟 周期 中 ,都 要 在 IF 段 把 PC 值 加 4, 为 此 需要 
设置 一 个 专门 的 加 法 器 。 另 外 ,分 支 指令 在 MEM 段 也 要 修改 PC 的 值 。 
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2. 相关 与 流水 线 冲 突 


。 相关 

相关 是 指 两 条 指令 之 间 存在 某 种 依赖 关系 。 如 果 两 条 指令 相关 ,那么 它们 可 能 就 不 能 
在 流水 线 中 重 释 执 行 或 者 只 能 部 分 重生 。 

相关 有 3 种 类 型 : 数据 相关 (也 称 真 数据 相关 ) ,名 相关 ,控制 相关 。 

1) 数据 相关 

考虑 两 条 指令 i 和 j ,i 在 j 的 前 面 (下 同 ) ,如 果 下 述 条 件 之 一 成 立 , 则 称 指令 j 与 指令 i 
数据 相关 : 

(1) 指令 7 使 用 指令 i 产生 的 结果 ; 

(2) 指令 j 与 指令 & 数据 相关 ,而 指令 又 与 指令 i 数据 相关 。 

其 中 第 二 个 条 件 表明 ,数据 相关 具有 传递 性 。 两 条 指令 之 间 如 果 存 在 第 一 个 条 件 所 指 
出 的 相关 的 链 , 则 它们 是 数据 相关 的 。 数 据 相关 反映 了 数据 的 流动 关系 , 即 如 何 从 其 产生 者 
流动 到 其 消费 者 。 

2) 名 相关 

这 里 的 名 是 指 指 令 所 访问 的 寄存 器 或 存储 器 单元 的 名 称 。 如 果 两 条 指令 使 用 了 相同 的 
名 ,但 是 它们 之 间 并 没有 数据 流动 , 则 称 这 两 条 指令 存在 名 相关 。 指 令 j 与 指令 i 之 间 的 名 
相关 有 以 下 两 种 。 

(1) 反 相关 。 如 果 指 令 j 所 写 的 名 与 指令 i 所 读 的 名 相同 , 则 称 指令 i 和 j 发 生 了 反 相 
关 。 反 相关 指令 之 间 的 执行 顺序 是 必须 严格 遵守 的 ,以 保证 i 读 的 值 是 正确 的 。 

(2) 输出 相关 。 如 果 指 令 j 和 指令 i 所 写 的 名 相同 , 则 称 指令 i 和 j 发 生 了 输出 相关 。 
输出 相关 指令 的 执行 顺序 是 不 能 颠倒 的 ,以 保证 最 后 的 结果 是 指令 j 写 进 去 的 。 

与 真 数据 相关 不 同 ,名 相关 的 两 条 指令 之 间 并 没有 数据 的 传送 ,只 是 使 用 了 相同 的 名 而 
已 。 可 以 通过 改变 指令 中 操作 数 的 名 来 消除 名 相关 ,这 就 是 换 名 技术 。 对 于 寄存 器 操作 数 
进行 换 名 称 为 寄存 器 换 名 。 寄 存 器 换 名 既 可 以 用 编译 器 静态 实现 ,也 可 以 用 硬件 动态 完成 。 

3) 控制 相关 

控制 相关 是 指 由 分 支 指 令 引 起 的 相关 。 它 需要 根据 分 支 指令 的 执行 结果 来 确定 后 面 该 
执行 哪个 分 支 上 的 指令 。 一 般 来 说 ,为 了 保证 程序 应 有 的 执行 顺序 ,必须 严格 按照 控制 相关 
确定 的 顺序 执行 。 

。 流水 线 冲 突 

流水 线 冲 突 是 指 对 于 具体 的 流水 线 来 说 ,由 于 相关 的 存在 .使 得 指令 流 中 的 下 一 条 指令 
不 能 在 指定 的 时 钟 周期 开始 执行 。 

流水 线 冲突 有 3 种 类 型 : 结构 冲突 ,数据 冲突 ,控制 冲突 。 

在 后 面 的 讨论 中 ,我 们 约定 : 当 一 条 指令 被 暂停 时 ,在 该 暂停 指令 之 后 流出 的 所 有 指令 
都 要 被 暂停 ,而 在 该 暂停 指令 之 前 流出 的 指令 则 继续 进行 。 显 然 , 在 整个 暂停 期 间 ,流水 线 
不 会 启动 新 的 指令 。 

1) 结构 冲突 

在 流水 线 处 理 机 中 ,如 果 某 种 指令 组 合 因为 资源 冲突 而 不 能 正常 执行 , 则 称 该 处 理 机 有 
结构 冲突 。 这 种 情况 发 生 在 功能 部 件 不 是 完全 流水 或 者 资源 份 数 不 够 时 。 
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2) 数据 冲突 

(1) 数据 冲突 

当 相关 的 指令 彼此 靠 得 足 够 近 时 ,它们 在 流水 线 中 的 重 又 执行 或 者 重新 排序 会 改变 指 
令 读 / 写 操作 数 的 顺序 ,使 之 不 同 于 它们 串 行 执行 时 的 顺序 。 这 就 是 发 生 了 数据 冲突 。 

按照 指令 读 访 问 和 写 访问 的 先后 顺序 ,可 以 将 数据 冲突 分 为 3 种 类 型 。 习 惯 上 ,这些 冲 
突 是 按照 流水 线 必须 保持 的 访问 顺序 来 命名 的 。 考 虑 两 条 指令 i 和 jj, 且 i 在 j 之 前 进入 流 
水 线 , 可 能 发 生 的 数据 冲突 有 以 下 几 种 。 

QO@ 写 后 读 冲 突 (Read After Write,RAW)。 指 令 j 用 到 指令 i 的 计算 结果 ,而 且 在 i 将 
结果 写 人 寄存 器 之 前 就 去 读 该 寄存 器 ,因而 得 到 的 是 旧 值 。 这 是 最 常见 的 一 种 数据 冲突 , 它 
对 应 于 真 数据 相关 。 

@ 写 后 写 冲 突 (Write After Write,WAW)。 指 令 j 和 指令 i 的 结果 寄存 器 相同 ,而 且 
j 在 i 写 人 之 前 就 先 对 该 寄存 器 进行 了 写 人 操作 ,从 而 导致 写 人 顺序 错误 。 最 后 在 结果 寄存 
器 中 留 下 的 是 i 写 入 的 值 。 这 种 冲突 对 应 于 输出 相关 。 

写 后 写 冲突 仅 发 生 在 这 样 的 流水 线 中 : 流水 线 中 不 只 一 个 段 可 以 进行 写 操作 ; 或 者 指 
令 被 重新 排序 了 (第 5 章 介 绍 )。 前 面 介绍 的 5 段 流水 线 不 会 发 生 写 后 写 冲 突 。 

@ 读 后 写 冲突 (Write After Read,WAR)。 指 令 j 的 目的 寄存 器 和 指令 i 的 源 操作 数 
寄存 器 相同 ,而 且 j 在 i 读 取 该 寄存 器 之 前 就 先 对 它 进 行 了 写 操作 ,导致 i 读 到 的 值 是 错误 
的 。 这 种 冲突 是 由 反 相 关 引 起 的 。 

读 后 写 冲突 在 前 述 5 段 流水 线 中 不 会 发 生 。 读 后 写 冲 突 仅 发 生 在 这 样 的 情况 下 : 有 些 
指令 的 写 结果 操作 提前 了 ,而 且 有 些 指 令 的 读 操 作 滞后 了 ; 或 者 指令 被 重新 排序 了 。 

(2) 使 用 定向 技术 减少 数据 冲突 引起 的 停顿 

为 了 减少 停顿 时 间 ,可 以 采用 定向 技术 来 解决 写 后 读 冲突 。 定 向 技术 (也 称 为 旁 路 ) 的 
关键 思想 是 : 在 发 生 写 后 读 相关 的 情况 下 ,在 计算 结果 尚未 出 来 之 前 ,后 面 等 待 使 用 该 结果 
的 指令 并 不 见得 是 马上 就 要 用 该 结果 。 如 果 能 够 将 该 计算 结果 从 其 产生 的 地 方 (ALU 的 出 
口 ) 直 接送 到 其 他 指令 需要 它 的 地 方 (ALU 的 入 口 ) ,那么 就 可 以 避免 停顿 。 

(3) 需要 停顿 的 数据 冲突 

并 不 是 所 有 的 数据 冲突 都 可 以 用 定向 技术 来 解决 。 对 于 这 种 情况 ,为 保证 代码 能 在 流 
水 线 中 正确 执行 ,需要 设置 一 个 称 为 “流水 线 互 锁 机 制 ” 的 功能 部 件 。 一 般 来 说 ,流水 线 互 锁 
机 制 的 作用 是 检测 和 发 现 数据 冲突 ,并 使 流水 线 停顿 ,直至 冲突 消失 。 停 顿 是 从 等 待 相关 数 
据 的 指令 开始 ,到 相应 的 指令 产生 该 数据 为 止 。 停 顿 导致 在 流水 线 中 插入 气泡 ,使 得 被 停顿 
指令 的 CPI 增加 了 相应 的 时 钟 周期 数 。 

(4) 依靠 编译 器 解决 数据 冲突 

为 了 减少 停顿 ,对 于 无 法 用 定向 技术 解决 的 数据 冲突 ,可 以 通过 在 编译 时 让 编译 器 重新 
组 织 指令 顺序 来 消除 冲突 ,这 种 技术 称 为 “指令 调度 ”或 “流水 线 调度 ”。 实 际 上 ,对 于 各 种 冲 
突 ,都 有 可 能 用 指令 调度 来 解决 。 

3) 控制 冲突 

在 流水 线 中 ,控制 冲突 可 能 会 比 数据 冲突 造成 更 多 的 性 能 损失 ,所 以 同样 需要 得 到 很 好 
的 处 理 。 执 行 分 支 指令 的 结果 有 两 种 ,一 种 是 分 支 “成 功 ”,PC 值 改变 为 分 支 转移 的 目标 地 
址 。 另 一 种 则 是 “失败 ”, 这 时 PC 的 值 保持 正常 递增 ,指向 顺序 的 下 一 条 指令 。 对 分 支 指令 
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“成 功 ?的 情况 来 说 ,是 在 条 件 判 定 和 转移 地 址 计算 都 完成 后 , 才 改变 PC 值 。 对 于 5 段 流水 
线 来 说 ,改变 PC 值 是 在 MEM 段 进行 的 。 

处 理 分 支 指令 最 简单 的 方法 是 “冻结 ?或 者 * 排 空 ?流水 线 。 即 一 旦 在 流水 线 的 译 码 段 
ID 检测 到 分 支 指令 ,就 暂停 其 后 的 所 有 指令 的 执行 ,直到 分 支 指令 到 达 MEM 段 、 确 定 出 是 
否 成 功 并 计算 出 新 的 PC 值 为 止 。 然 后 ,按照 新 的 PC 值 取 指令 。 在 这 种 情况 下 ,分 支 指 
令 给 流水 线 带 来 了 三 个 时 钟 周期 的 延迟 。 显 然 ,这 种 让 流水 线 空 等 的 方法 不 是 一 种 好 的 
选择 。 

由 分 支 指令 引起 的 延迟 称 为 分 支 延迟 。 为 减少 分 支 延 迟 ,可 采取 以 下 措施 。 

(1) 在 流水 线 中 尽早 判断 出 (或 者 猜测 ) 分 支 转移 是 否 成 功 ; 

(2) 尽早 计算 出 分 支 目 标 地 址 。 

这 两 种 措施 要 同时 采用 , 缺 一 不 可 。 因 为 只 有 判断 出 转移 是 否 成 功 而 且 得 到 分 支 目 标 
地 址 后 才能 进行 转移 。 

在 下 面 的 讨论 中 ,假设 这 两 步 工作 被 提前 到 ID 段 完成 , 即 分 支 指令 是 在 ID 段 的 末尾 执 
行 完 , 所 带 来 的 分 支 延 迟 为 一 个 时 钟 周 期 。 

减少 分 支 延迟 的 方法 有 许多 种 。 下 面 只 介绍 3 种 通过 软件 (编译 器 ) 来 处 理 的 方法 ,这 
三 种 方法 有 一 个 共同 的 特点 : 它们 对 分 支 的 处 理 方法 在 程序 的 执行 过 程 中 始终 是 不 变 的 。 
它们 要 么 总 是 预测 分 支 成 功 ,要 么 总 是 预测 分 支 失 败 。 

(1) 预测 分 支 失败 

当 ID 段 检测 到 分 支 指令 时 ,可 以 让 流水 线 通 过 预测 选择 两 条 分 支 路 径 中 的 一 条 ,继续 
处 理 后 续 指 令 。 预 测 有 两 种 选择 : 猜测 分 支 成 功 , 或 者 猜测 分 支 失败 。 不 管 哪 一 种 ,都 可 以 
通过 编译 器 来 优化 性 能 , 即 让 代码 中 最 常 执行 的 路 径 与 所 选 的 预测 方向 一 致 

预测 分 支 失 败 的 方法 是 沿 失败 的 分 支 继续 处 理 指 令 ,就 好 像 什 么 都 没 发 生 似 的 。 当 确 
定 分 支 是 失败 时 ,说 明 预 测 正确 ,流水 线 正 常 流动 ; 当 确定 分 支 是 成 功 时 ,流水 线 就 把 在 分 
支 指令 之 后 取出 的 指令 转化 为 空 操 作 ,并 按 分 支 目 标 地 址 重新 取 指 令 执 行 。 

采用 这 种 方法 处 理 分 支 指令 的 后 续 指 令 时 ,要 保证 分 支 结果 出 来 之 前 不 能 改变 处 理 机 
的 状态 ,以便 一 旦 猜 错 时 ,处 理 机 能 够 回 退 到 原先 的 状态 。 

(2) 预测 分 支 成 功 

这 种 方法 按 分 支 成 功 的 假设 进行 处 理 。 当 流水 线 ID 段 检测 到 分 支 指令 后 ,一旦 计算 出 
了 分 支 目标 地 址 ,就 开始 从 该 目标 地 址 取 指 令 执 行 。 

(3) 延迟 分 支 

这 种 方法 的 主要 思想 是 从 迎 辑 上 * 延 长” 分支 指令 的 执行 时 间 。 把 延迟 分 支 看 成 是 由 原 
来 的 分 支 指令 和 若干 个 延迟 槽 构成 。 不 管 分 支 是 否 成 功 , 都 要 按 顺 序 执行 延迟 槽 中 的 指令 。 
在 采用 延迟 分 支 的 实际 机 器 中 , 绝 大 多 数 的 延迟 槽 都 是 一 个 , 即 : 

分 支 指令 

延迟 档 
下 面 只 讨论 这 种 情况 。 

可 以 看 出 ,只 要 分 支 延 迟 槽 中 的 指令 是 有 用 的 :流水线 中 就 没有 出 现 停顿 ,这 时 延迟 分 
支 的 方法 能 很 好 地 减少 分 支 延迟 。 

放 入 延迟 槽 中 的 指令 是 由 编译 器 来 选择 的 。 实 际 上 延迟 分 支 能 和 否 带 来 好 处 完全 取决 于 
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编译 器 能 否 把 有 用 的 指令 调度 到 延迟 槽 中 。 这 也 是 一 种 指令 调度 技术 。 常 用 的 调度 方法 有 
3 种 : 从 前 调度 ,从 目标 处 调度 ,从 失败 处 调度 。 

上 述 方法 受到 两 个 方面 的 限制 ,一 个 是 可 以 被 放 入 延迟 槽 中 的 指令 要 满足 一 定 的 条 件 ， 
另 一 个 是 编译 器 预测 分 支 转移 方向 的 能 力 。 为 了 提高 编译 器 在 延迟 槽 中 放 和 人 有 用 指令 的 能 
力 ,许多 处 理 机 采用 了 分 支取 消 机 制 。 在 这 种 机 制 中 ,分 支 指令 隐 含 预测 的 分 支 执行 方向 。 
当 分 支 的 实际 执行 方向 和 事先 所 预测 的 一 样 时 ,执行 延迟 槽 中 的 指令 ,否则 就 将 该 指令 转化 
成 空 操作 。 


3.2.5 流水 线 的 实现 


1. MIPS 的 一 种 简单 实现 


考虑 实现 MIPS 指令 子 集 的 一 种 简单 数据 通路 。 该 数据 通路 的 操作 分 成 5 个 时 钟 周 
期 : 取 指 令 ,指令 译 码 / 读 寄 存 器 ,执行 /有 效 地 址 计算 ,存储 器 访问 /分 支 完成 , 写 回 。 下 面 
只 讨论 整数 指令 的 实现 ,包括 数据 字 的 load 和 store, 等 于 0 转移 ,整数 ALU 指令 等 。 

在 这 个 数据 通路 上 ,最 多 花 5 个 时 钟 周 期 就 能 实现 一 条 MIPS 指令 。 这 5 个 时 钟 周期 
及 相应 的 操作 如 下 。 

1) 取 指令 周期 (IF) 


IR<-Mem[ PC] 
NPC<-PC+4 


2) 指令 译 码 / 读 寄存 器 周期 (ID) 


A<—Regs[rs] 

B<—Regs[rt] 

Imm<-((IRis)* 提 提 IRis..31) 

这 里 准备 的 放 在 A、B 和 Imm 中 的 数据 在 后 面 周期 中 也 许 用 不 上 ,但 也 没关系 ,并 不 影 
响 程 序 执行 的 正确 性 。 而 且 统 一 这 样 处 理 , 可 以 减少 硬件 的 复杂 度 , 是 有 益 无 害 的 。 

3) 执行 /有 效 地 址 计算 周期 (EX) 

在 这 个 周期 ,ALU 对 在 前 一 个 周期 准备 好 的 操作 数 进行 运算 。 不 同 指令 所 进行 的 操作 
不 同 : 

(1) load 指令 和 store 指令 : ALUo<A 十 Imm 

(2) 寄存 器 -寄存 器 ALU 指令 : ALUo<A funct B 

funct 字段 给 出 了 运算 操作 码 。 

(3) 寄存 器 -立即 值 ALU 指令 : ALUo<-A op Imm 

(4) 分 支 指令 


ALUo<—NPC + (Imm << 2); 
cond<-(A== 0) 


这 里 只 考虑 一 种 分 支 , 即 BEQZ(Branch if EQual Zero) , 它 的 判断 操作 是 : 判断 是 否 为 


54 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





0。 判 断 的 结果 存 人 寄存 器 cond, 供 以 后 使 用 。 

这 里 将 有 效 地 址 计算 周期 和 执行 周期 合并 为 一 个 时 钟 周期 ,这 是 因为 MIPS 指令 集 采 
用 load/store 结构 ,任何 指令 都 不 会 同时 进行 数据 有 效 地 址 的 计算 、 转 移 目 标 地 址 的 计算 和 
对 数据 进行 运算 。 

4) 存储 器 访问 /分 支 完成 周期 (MEM) 

所 有 指令 都 要 在 该 周期 对 PC 进行 更 新 。 除 了 分 支 指令 ,其 他 指令 都 是 做 : PC<NPC。 

在 该 周期 处 理 的 指令 只 有 load .store 和 分 支 3 种 指令 。 

(1) load 和 store 指令 

load 指令 : LMD<-Mem[ ALUo] 

store 指令 : Mem[ ALUo]<—B 

(2) 分 支 指令 


if(cond) PC <-ALUo else PC<-NPC 


5) 写 回 周期 (WB) 

(1) 寄存 器 -寄存 器 ALU 指令 : Regs[rd]<- ALUo 
(2) 寄存 器 -立即 数 ALU 指令 : Regs[rt]< ALUo 
(3) load 指令 : Regs[rt]<-LMD 

上 述 指 令 均 是 将 结果 写 入 通用 寄存 器 组 。 


2. 基本 的 MIPS 流水 线 


如 果 把 上 述 实 现 方案 中 每 一 个 时 钟 周期 完成 的 工作 看 作 是 流水 线 的 一 段 ,就 可 以 很 容 
易 将 之 改造 为 流水 实现 。 流 水 段 中 的 所 有 操作 在 一 个 时 钟 周期 内 完成 ,每 个 时 钟 周期 启动 
一 条 新 的 指令 。 这 里 主要 进行 了 以 下 改动 。 

(1) 设置 了 流水 寄存 器 。 

在 段 与 段 之 间 设 置 了 流水 寄存 器 。 流 水 寄存 器 的 名 称 用 其 相 邻 的 两 个 段 的 名 称 来 表 
示 。 流 水 寄存 器 中 的 字段 用 "x. yLsj” 的 形式 来 表示 。 其 中 ,x 为 流水 寄存 器 名 称 ,y 为 具体 
子 寄 存 器 的 名 称 ,s 为 字段 名 称 。 

流水 寄存 器 的 作用 如 下 。 

J@ 将 各 段 的 工作 隔 开 ,使 得 它们 不 会 互相 干扰 ; 

@ 保存 相应 段 的 处 理 结 果 ; 

@ 向 后 传递 后 面 将 要 用 到 的 数据 或 者 控制 信息 。 

(2) 增加 了 向 后 传递 IR 和 从 MEM/WB.IR 回 送 到 通用 寄存 器 组 的 连接 。 后 者 用 于 实 
现 结果 回 写 到 通用 寄存 器 组 。 

(3) 将 对 PC 的 修改 移 到 了 IF 段 .以便 PC 能 及 时 地 加 4, 为 取 下 一 条 指令 做 好 准备 。 

为 了 详细 了 解 该 流水 线 的 工作 情况 .需要 知道 各 种 指令 在 每 一 个 流水 段 进行 什么 样 的 
操作 ,如 表 3.1 所 示 。 在 IF 段 和 I 了 D 段 ,所 有 指令 的 操作 都 一 样 。 从 EX 段 开 始 才 区 分 不 同 
的 指令 。 表 中 IR[rsj 是 指 IR 的 第 6 位 到 第 10 位 , 即 IRs io; IR[Lrtj 是 指 IRu..1s; IRLrdj 是 
指 IRie.a。 
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表 3.1 MIPS 流水 线 的 每 个 流水 段 的 操作 




















流水 段 所 有 指令 
IF/ID. IR 一 MemLPC]; 
正 IF/ID. NPC,PC 一 (if((EX/MEM. IR[op] == branch )& EX/MEM. cond) 
{EX/MEM. ALUo} else {PC+4})); 
ID/EX. A RegsLIF/ID. IRLrs]]; ID/EX. B Regs[LIF/ID. IRLrt]]; 
ID ID/EX. NPC IF/ID. NPC; ID/EX. IR IF/ID. IR; 
ID/EX. Imm <—(IF/ID. IRis )™* # #1F/ID. IRis..a; 
ALU 指令 load/store 指令 分 支 指令 
EX/MEM. IR ID/EX. IR; |EX/MEM.IR ID/EX.IR; |EX/MEM.IR ID/EX.IR; 
EX/MEM. ALUo 一 EX/MEM. ALUo 一 EX/MEM. ALUo 一 
EX ID/EX. A funct ID/EX.B ID/EX. A+ID/EX. Imm; ID/EX. NPC + ID/EX. Imm 
或 EX/MEM. B*ID/EX. B; <<2; 
EX/MEM. ALUo 一 EX/MEM. cond 一 
ID/EX. A op ID/EX. Immy (ID/EX. A= =0); 
MEM/ WB. IR EX/ MEM. IR; | MEM/WB. IR EX/ MEM. IR; 
MEM/WB. ALUo 一 MEM/WB. LMD 一 
MEM EX/MEM. ALUo; Mem[ EX/MEM. ALUo]; 
或 
Mem[EX/MEM. ALUo] 一 
EX/MEM. B; 
Regs[MEM/WSB. IR[rd]] 二 | Regs[TMEM/WB. IR[rt]] 一 
MEM/WB. ALUo; MEM/WB. LMD; 
WB | 或 
Regs[MEM/WB. IR[rt]] 一 
MEM/WB. ALUo; 











为 了 使 该 流水 线 正常 工作 ,还 要 解决 好 数据 冲突 的 问题 。 对 于 该 流水 线 而 言 ,所 有 的 数 
据 冲突 均 可 以 在 ID 段 检测 到 。 如 果 存 在 数据 冲突 ,就 在 相应 的 指令 流出 ID 段 之 前 将 其 暂 
停 。 完 成 该 工作 的 硬件 称 为 流水 线 的 互 锁 机 制 。 类 似 地 , 若 采 用 了 定向 技术 ,我 们 可 以 在 
ID 段 确定 需要 什么 样 的 定向 ,并 设置 相应 的 控制 。 按 这 样 处 理 , 就 不 必 在 流水 过 程 中 将 已 
经 改变 了 机 器 状态 的 指令 挂 起 ,可 以 降低 流水 线 的 硬件 复杂 度 。 另 外 一 种 处 理 方法 是 在 使 
用 操作 数 的 那个 时 钟 周期 (上 述 流 水 线 中 的 EX 和 MEM 段 ) 的 开始 检测 冲突 和 确定 必需 的 
定向 。 

由 于 使 用 load 的 结果 而 引起 的 流水 线 互 锁 称 为 load 互 锁 。 在 load 已 经 进入 EX 段 时 ， 
通过 比较 相应 的 寄存 器 ,就 能 判断 当前 在 ID 段 的 指令 是 否 由 于 使 用 那 条 load 指令 的 结果 
而 导致 RAW 冲突 。 如 果 存 在 ,流水 线 互 锁 机 制 必须 在 流水 线 中 插入 停顿 ,并 使 当前 正 处 于 
IF 段 和 ID 段 的 指令 不 再 前 进 。 为 实现 这 点 ,只 要 将 ID/EX. IR 中 的 操作 码 改 为 全 0( 全 0 
表示 空 操作 ) ,并 将 IF/ID 寄存 器 的 内 容 回 送 到 自己 的 入 口 。 

定向 逻辑 要 考虑 的 情况 更 多 ,因此 其 实现 比 上 述 冲突 检测 机 制 更 复杂 。 类 似 地 , 它 也 是 
通过 比较 流水 寄存 器 中 的 寄存 器 地 址 来 确定 的 。 

在 该 流水 线 中 ,分 支 指令 的 条 件 测试 和 分 支 目 标 地 址 计算 是 在 EX 段 完 成 ,对 PC 的 修 
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改 是 在 MEM 段 完 成 。 它 所 带 来 的 分 支 延 迟 是 3 个 时 钟 周期 。 为 了 减少 分 支 延迟 , 需 尽早 
完成 这 些 工 作 。 如 果 只 考虑 BEQZ 和 BNEZ, 就 可 以 把 这 些 工 作 提 前 到 ID 段 进行 。 为 此 ， 
需要 在 ID 段 增设 一 个 加 法 器 ,用 于 计算 分 支 目标 地 址 ,并 把 条 件 测试 “==0?” 的 逻辑 电路 移 
到 ID 段 。 这样, 分支 延迟 就 减少 为 1 个 时 钟 周 期 。 改 进 后 的 流水 线 对 分 支 指令 的 处 理 变 成 
了 如 表 3. 2 所 示 的 操作 。 和 斜体 部 分 表示 与 表 3. 1 不 同 的 操作 。 


表 3.2 改进 后 流水 线 的 分 支 操作 


流水 段 分 支 指令 

IF/ID. IR 一 Mem[PC]; 

IF IF/ID. NPC,PC 一 (if ((IF/IDLop| == branch) & (Regs[IF/ID. IRLrs]]== 0)) 
{IF/ID. NPC+ (IF/ID. IR1is)" ## (IF/ID. IR,s..3 <<2)) else {PC+ 4)); 

ID/EX. A <Regs[IF/ID. IRLrs]]; ID/EX. B*-Regs[IF/ID. IR[rt]]; 

ID ID/EX. IR IF/ID. IR; 

ID/EX. Imm <( IF/ID. IR1is)" ## IF/ID. IRis..a; 




















1. 概念 题 


【是 3.1】 解释 下 列 名 词 

流水 线 技 术 通过 时 间 排 空 时 间 定向 技术 

部 件 级 流水 线 指令 流水 线 系统 级 流水 线 单 功 能 流水 线 
多 功能 流水 线 静态 流水 线 动态 流水 线 线性 流水 线 
非 线性 流水 线 顺序 流水 线 乱 序 流水 线 吞吐 率 


流水 线 的 加 速 比 。 ”流水线 的 效率 ”相关 数据 相关 

名 相关 反 相 关 输出 相关 换 名 技术 

控制 相关 流水 线 冲 突 结构 冲突 数据 冲突 

控制 冲突 写 后 读 冲 突 写 后 写 冲 突 读 后 写 冲 突 

2. 选择 题 

【 题 3. 2〗 以 下 说 法 不 正确 的 是 ( 

A. 线性 流水 线 是 单 功能 流水 线 B. 动态 流水 线 是 多 功能 流水 线 

C. 静态 流水 线 是 多 功能 流水 线 D. 动态 流水 线 只 能 是 单 功能 流水 线 


【是 3. 3】 非 线 性 流水 线 的 特征 是 ( Ws 
A. 一 次 运算 中 使 用 流水 线 中 的 多 个 段 
B. 一 次 运算 中 要 多 次 使 用 流水 线 中 的 某 些 功能 段 
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C. 流水 线 中 某 些 功能 段 在 各 次 运算 中 的 作用 不 同 

D. 流水 线 的 各 功能 段 在 不 同 运算 中 可 以 有 不 同 的 连接 

【 题 3.4】 以 下 是 某 非 线性 流水 线 的 调度 方案 :[(2,7); (2,2,7); (3,4); (4); (3,4 
7); (4,7); (4,3); (5); (7)]。 其 中 ,平均 延迟 最 小 的 等 间隔 调度 方案 是 ( Ys 


A. (4) B. (5) C. (3,4) D. (4,3) 
【是 3.5】 与 线性 流水 线 最 大 吞吐 率 有 关 的 是 ( )。 

A. 各 个 功能 段 的 执行 时 间 B. 最 快 的 那 一 段 的 执行 时 间 
C. 最 慢 的 那 一 段 的 执行 时 间 D. 最 后 功能 段 的 执行 时 间 


【是 3.6】 在 MIPS 的 指令 流水 线 中 ,可 能 发 生 的 冲突 有 ( 和 

A. 同一 条 指令 的 读 操作 与 写 操作 之 间 的 写 后 读 冲 突 

B. 先 流入 的 指令 的 写 操作 与 后 流入 的 指令 的 读 操作 之 间 的 写 后 读 冲突 
C. 后 流入 的 指令 的 写 操作 与 先 流入 的 指令 的 读 操 作 之 间 的 读 后 写 冲突 
D. 两 条 指令 的 写 操作 之 间 的 写 后 写 冲 突 


3. 填空 题 
【是 3.7】 流水 线 中 的 每 个 子 过 程 及 其 功能 部 件 称 为 流水 线 的 段 ,流水 线 的 段 数 称 














为 

【 题 3. 8〗 流水 线 中 最 慢 的 一 段 称 为 流水 线 的 

【 题 3. 9〗 如 果 流 水 线 处 理 机 具有 向 量 数据 表示 和 向 量 指令 , 则 称 之 为 流水 
处 理 机 ; 否则 就 称 之 为 流水 处 理 机 。 

【 题 3. 10〗 按照 流水 线 所 完成 的 功能 来 分 ,流水 线 可 分 为 和 

【 题 3.11】 按照 同一 时 间 内 各 段 之 间 的 连接 方式 来 分 ,流水 线 可 分 为 
和 

【 题 3.12】 按照 流水 的 级 别 来 分 ,流水 线 可 分 为 和 

【 题 3. 13〗 按照 流水 线 中 是 否 有 反馈 回路 来 分 ,流水 线 可 分 为 和 





【 题 3.14】 按照 输出 端 任务 流出 顺序 与 输入 端 流 入 的 任务 顺序 是 否 相 同 来 分 ， 流水 线 
可 分 为 _ 和 。 
【 题 3.15】 有 一 条 非 线性 流水 线 , 其 预约 表 为 下 = 12,.4,5}, 初 始 冲突 向 量 为 Co 一 
(11010) , 则 对 于 Co, 后续 的 两 个 冲突 向 量 分 别 为 和 
【 题 3.16】 流水 线 在 连续 流动 达到 稳定 状态 后 所 得 到 的 吞吐 率 ， 各 为 
【 题 3.17】 消除 流水 线 瓶颈 的 方法 有 和 两 种 。 
【 题 3. 18〗 相关 有 3 种 类 型 总 和 
【 题 3. 19〗 指令 之 间 的 名 相关 有 和 两 种 。 
【 题 3.20】 流水 线 冲突 有 和 3 种 类 型 。 
【 题 3.21】 按照 指令 读 访问 和 写 访问 的 先后 顺序 ,可 以 将 数据 冲突 分 为 
和 3 种 类 型 。 
【 题 3.22】 由 分 支 指令 引起 的 延迟 称 为 
【 题 3.23】 延迟 分 支 方法 有 3 种 调度 策略 : 和 
【 题 3.24】 基本 的 MIPS 流水 线 分 为 5 个 段 ,分 别 是 : 
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和 


4. 问答 题 


【是 3.25】 简 述 流水 线 技术 的 特点 。 

【 题 3.26】 流水 寄存 器 的 作用 是 什么 ? 

【 题 3.27】 简 述 非 线 性 流水 线 调度 所 要 解决 的 问题 。 

【 题 3. 28〗 解决 流水 线 结构 冲突 的 方法 有 哪些 ? 

【是 3.29】 简 述 通过 软件 (编译 器 ) 来 减少 分 支 延 迟 的 3 种 方法 。 这 些 方法 的 共同 特 
点 是 什么 ? 

【 题 3. 30〗 简 述 延迟 分 支 方法 中 的 3 种 调度 策略 的 优 缺 点 。 


5. 应 用 题 


【 题 3. 31】 设 一 条 指令 的 执行 过 程 分 成 取 指 令 、 分 析 指 令 和 执行 指令 三 个 阶段 ,每 个 
阶段 所 需 的 时 间 分 别 为 At、At 和 2At 。 分 别 求 出 下 列 各 种 情况 下 ,连续 执行 N 条 指令 所 需 
的 时 间 。 

(1) 顺序 执行 方式 ; 

(2) 只 有 “ 取 指 令 ” 与 “执行 指令 ” 重 释 ; 

(3)“ 取 指令 ”分析 指令 ”与 “执行 指令 ” 重 释 。 

【 题 3. 32】 在 一 台 单 流水 线 多 操作 部 件 的 处 理 机 上 执行 下 面 的 程序 , 取 指 令 、 指 令 译 
码 各 需 一 个 时 钟 周 期 ,MOVE、ADD 和 MUL 操作 各 需要 2 个 .3 个 和 4 个 时 钟 周期 。 每 个 
操作 都 在 第 一 个 时 钟 周期 从 通用 寄存 器 中 读 操 作 数 , 在 最 后 一 个 时 钟 周期 把 运算 结果 写 到 


通用 寄存 器 中 。 
K: MOVE RI1,R0 ;R1<—(R0) 
K+1l: MUL Ro0,R2,RI ;RO<(R2) * (R1) 
K+2: ADD RO.R3,R2 ;RO<—(R3)+ (R2) 





画 出 指令 执行 的 流水 线 时 空 图 ,并 计算 执行 完 3 条 指令 共 需 要 多 少 个 时 钟 周期 。 
【 题 3. 33〗 有 一 指令 流水 线 如 图 3. 2 所 示 。 





























入 -= 1 = 2 HH=| 3 -| 4 上 上 一 出 
SOns SOns 100ns 200ns 





3.2 指令 流水 线 


(1) 求 连续 输入 10 条 指令 ,该 流水 线 的 实际 吞吐 率 和 效率 ; 

(2) 该 流水 线 的 “瓶颈 ”在 哪 一 段 ? 请 采取 两 种 不 同 的 措施 消除 此 * 瓶 项 ”。 对 于 你 所 给 
出 的 两 种 新 的 流水 线 ,连续 输 入 10 条 指令 时 ,其 实际 吞吐 率 和 效率 各 是 多 少 ? 

【 题 3.34】 有 一 条 流水 线 由 4 段 组 成 ,其 中 每 当 流 经 第 3 段 时 ,总 要 在 该 段 循环 一 次 ， 
然后 才能 流 到 第 4 段 。 如 果 每 段 经 过 一 次 所 需要 的 时 间 都 是 At, 问 : 

(1) 当 在 流水 线 的 输入 端 连 续 地 每 At 时 间 输 入 任务 时 ,该 流水 线 会 发 生 什么 情况 ? 

(2) 此 流水 线 的 最 大 吞吐 率 为 多 少 ” 如果 每 2At 输入 一 个 任务 ,连续 处 理 10 个 任务 时 
的 实际 吞吐 率 和 效率 是 多 少 ? 
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(3) 当 每 段 时 间 不 变 时 ,如 何 提高 该 流水 线 的 吞吐 率 ? 仍 连 续 处 理 10 个 任务 时 ,其 吞 
吐 率 提 高 多 少 ? 
【是 3. 35】 有 一 条 静态 多 功能 流水 线 由 5 段 组 成 ,如 图 3. 3 所 示 。 加 法 用 1、3、4、5 
段 ,乘法 用 1.2.5 段 ,第 3 段 的 时 间 为 2A1, 其 余 各 段 的 时 间 均 为 At, 而 且 流 水 线 的 输出 可 以 
直接 返回 输入 端 或 暂 存 于 相应 的 流水 寄存 器 中 。 现 要 在 该 流水 线 上 计算 11 a 十 B,) , 画 
出 其 时 空 图 ,并 计算 其 吞吐 率 、 加 速 比 和 效率 。 
加 法 


=“ 


Ai A 






































3.3 一 条 静态 多 功能 流水 线 


【 题 3. 36〗 有 一 条 动态 多 功能 流水 线 由 5 段 组 成 (如 图 3.4 所 示 ), 加 法 用 1、3、4、5 
段 ,乘法 用 1、2、5 段 ,第 2 段 的 时 间 为 2Az, 其 余 各 段 时 间 均 为 At, 而 且 流水 线 的 输出 可 以 直 


接 返 回 输入 端 或 暂 存 于 相应 的 流水 寄存 器 中 。 若 在 该 流水 线 上 计算 2 (4A， X Bi), 试 计算 


其 吞吐 率 、 加 速 比 和 效率 。 
加 法 
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图 3.4 一 条 动态 多 功能 流水 线 
【 题 3.37】 有 一 条 动态 多 功能 流水 线 由 6 个 功能 段 组 成 ,如 图 3.5 所 示 。 
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图 3.5 6 段 动态 多 功能 流水 线 


其 中 ,Si 、S; 、Ss 、Ss 组 成 乘法 流水 线 ,S,、Ss、S;、Ss 组 成 加 法 流水 线 , 各 个 功能 段 时 间 
均 为 50ns, 假 设 该 流水 线 的 输出 结果 可 以 直接 返回 输入 端 , 而 且 设 置 有 足够 的 缓冲 寄存 器 ， 
若 以 最 快 的 方式 用 该 流水 线 计算 : 


(1) 画 出 时 空 图 ; 

(2) 计算 实际 的 吞吐 率 、 加 速 比 和 效率 。 

【 题 3.38】 有 一 条 4 段 流水 线 如 图 3. 6 所 示 ,一 个 任务 通过 此 流水 线 的 完成 总 时 间 为 
6At, 所 有 相继 段 必须 在 每 个 时 钟 周 期 之 后 才能 使 用 。 
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图 3.6 一 条 4 段 流水 线 












































写 出 该 流水 线 的 预约 表 (4 行 6 列 )。 
【 题 3.39】 在 一 个 5 段 流水 线 处 理 机 上 ,各 段 执行 时 间 均 为 Ar, 需 经 9At 才能 完成 一 
个 任务 ,任务 处 理 对 各 段 的 使 用 要 求 预约 表 如 表 3. 3 所 示 。 


表 3.3 题 3.39 预约 表 














时 间 
功能 全 亚 2 3 4 5 6 7 8 9 
Si JV JV 
5S Vv Vv 
Ss 以 Vv V/ 
S, JV JV 
S, V V 
































(1) 画 出 流水 线 任务 调度 的 状态 转移 图 。 

(2) 求 出 流水 线 的 最 优 调度 策略 和 流水 线 的 最 大 吞吐 率 。 

(3) 按 最 优 调度 策略 连续 输入 6 个 任务 ,流水 线 的 实际 吞吐 率 是 多 少 ? 

【 题 3. 40〗 有 一 个 5 段 流水 线 ,各 段 执行 时 间 均 为 At, 其 预约 表 如 表 3.4 所 示 。 


表 3.4 题 3.40 预约 表 

















时 间 
功能 眉 1 2 3 4 5 6 7 
Si V V 
5 尽 ~ 
Sa ~ ~ 
Si ~ ~ 
Ss V V 























(1) 画 出 流水 线 任务 调度 的 状态 转移 图 。 

(2) 分 别 求 出 允许 不 等 时 间 间 隔 调 度 和 等 时 间 间 隔 调度 的 两 种 最 优 调度 策略 ,以 及 这 
两 种 调度 策略 的 流水 线 最 大 吞吐 率 。 

(3) 若 连续 输入 10 个 任务 , 求 这 两 种 调度 策略 的 流水 线 实际 吞吐 率 和 加 速 比 。 

【是 3.41】 在 MIPS 流水 线 上 运行 如 下 代码 序列 : 


LOOP: LW R1,0(R2) 
DADDIU R1,R1,#1 
SW R1,0(R2) 


DADDIU R2,R2,#4 
DSUB ~ R4,R3,R2 
BNEZ R4,LOOP 
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其 中 ,R3 的 初 值 是 R2 十 396。 假 设 : 在 整个 代码 序列 的 运行 过 程 中 ,所 有 的 存储 器 访 
问 都 是 命中 的 ,并 且 在 一 个 时 钟 周 期 中 对 同一 个 寄存 器 的 读 操 作 和 写 操作 可 以 通过 寄存 器 
组 “定向 ”。 间 ; 

(1) 在 没有 任何 其 他 定向 (或 旁 路 ) 硬 件 的 支持 下 ,请 画 出 该 指令 序列 执行 的 流水 线 时 
空 图 。 假 设 采用 排 空 流水 线 的 策略 处 理 分 支 指令 , 且 所 有 的 存储 器 访问 都 命中 Cache, 那 么 
执行 上 述 循环 需要 多 少 个 时 钟 周期 ? 

(2) 假设 该 流水 线 有 正常 的 定向 路 径 ,请 画 出 该 指令 序列 执行 的 流水 线 时 空 图 。 假 设 
采用 预测 分 支 失 败 的 策略 处 理 分 支 指令 , 且 所 有 的 存储 器 访问 都 命中 Cache, 那 么 执行 上 述 
循环 需要 多 少 个 时 钟 周期 ? 

(3) 假设 该 流水 线 有 正常 的 定向 路 径 和 一 个 单 周期 延迟 分 支 ,请 对 该 循环 中 的 指令 进 
行 调度 ,你 可 以 重新 组 织 指令 的 顺序 ,也 可 以 修改 指令 的 操作 数 , 但 是 注意 不 能 增加 指令 的 
条 数 。 请 画 出 该 指令 序列 执行 的 流水 线 时 空 图 ,并 计算 执行 上 述 循环 所 需要 的 时 钟 周期 数 。 

【 题 3.42】 假设 各 种 分 支 指令 数 占 所 有 指令 数 的 百分比 如 表 3. 5 所 示 。 


表 3.5 各 种 分 支 指令 数 占 所 有 指令 数 的 百分比 


条 件 分 支 20% (其 中 的 60% 是 分 支 成 功 的 ) 


跳 转 和 调用 5% 





现 有 一 条 段 数 为 4 的 流水 线 , 无 条 件 分 支 在 第 二 个 时 钟 周 期 结束 时 就 被 解析 出 来 ,而 条 
件 分 支 要 到 第 3 个 时 钟 周期 结束 时 才能 够 被 解析 出 来 。 第 一 个 流水 段 是 完全 独立 于 指令 类 
型 的 , 即 所 有 类 型 的 指令 都 必须 经 过 第 一 个 流水 段 的 处 理 。 请 问 在 没有 任何 控制 相关 的 情 
况 下 ,该 流水 线 相对 于 存在 上 述 控制 相关 情况 下 的 加 速 比 是 多 少 ? 


题 解 


1. 概念 题 


【是 3.1】 解释 下 列 名 词 

流水 线 技术 一 一 将 一 个 重复 的 时 序 过 程 ,分 解 成 为 若干 个 子 过 程 ,而 每 一 个 子 过 程 都 可 
有 效 地 在 其 专用 功能 段 上 与 其 他 子 过 程 同时 执行 。 

通过 时 间 一 一 流水 线 中 第 一 个 任务 进入 流水 线 到 流出 结果 所 需 的 时 间 。 

排 空 时 间 一 一 流水 线 中 最 后 一 个 任务 从 进入 流水 线 到 流出 结果 所 需 的 时 间 。 

定向 技术 一 一 用 来 解决 写 后 读 冲 突 。 在 发 生 写 后 读 相关 的 情况 下 ,在 计算 结果 尚未 出 
来 之 前 ,后 面 等 待 使 用 该 结果 的 指令 并 不 一 定 马上 就 要 用 该 结果 。 如 果 能 够 将 该 计算 结果 
从 其 产生 的 地 方 直接 送 到 其 他 指令 需要 它 的 地 方 , 那 么 就 可 以 避免 停顿 。 

部 件 级 流水 线 一 一 又 称 运算 操作 流水 线 。 把 处 理 机 中 的 部 件 进行 分 段 ,再 把 这 些 部 件 
分 段 相互 连接 而 成 。 它 使 得 运算 操作 能 够 按 流 水 方式 进行 。 

指令 流水 线 一 一 又 称 处 理 机 级 流水 线 。 它 是 把 指令 的 执行 过 程 按 照 流水 方式 进行 处 
理 , 即 把 一 条 指令 的 执行 过 程 分 解 为 若干 个 子 过 程 ,每 个 子 过 程 在 独立 的 功能 部 件 中 执行 。 
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系统 级 流水 线 一 一 又 称 为 宏 流 水 线 。 它 是 把 多 个 处 理 机 串 行 连接 起 来 ,对 同一 数据 流 
进行 处 理 , 每 个 处 理 机 完成 整个 任务 中 的 一 部 分 。 前 一 个 处 理 机 的 输出 结果 存 人 存储 器 中 ， 
作为 后 一 个 处 理 机 的 输入 。 

单 功能 流水 线 一 一 指 流水 线 的 各 段 之 间 的 连接 固定 不 变 、 只 能 完成 一 种 固定 功能 的 流 
水 线 。 

多 功能 流水 线 一 一 指 各 段 可 以 进行 不 同 的 连接 ,以 实现 不 同 功能 的 流水 线 。 

静态 流水 线 一 一 指 在 同一 时 间 内 ,多 功能 流水 线 中 的 各 有 段 只 能 按 同 一 种 功能 的 连接 方 
式 工作 的 流水 线 。 当 流水 线 要 切换 到 另 一 种 功能 时 ,必须 等 前 面 的 任务 都 流出 流水 线 之 后 ， 
才能 改变 连接 。 

动态 流水 线 一 一 指 在 同一 时 间 内 ,多 功能 流水 线 中 的 各 段 可 以 按照 不 同 的 方式 连接 , 同 
时 执行 多 种 功能 的 流水 线 。 它 人 允许 在 某 些 段 正在 实现 某 种 运算 时 , 另 一 些 段 却 在 实现 另 一 
种 运算 。 

线性 流水 线 一 一 指 各 段 串 行 连 接 . 没 有 反馈 回路 的 流水 线 。 数 据 通过 流水 线 中 的 各 段 
时 ,每 一 个 段 最 多 只 流 过 一 次 。 

非 线性 流水 线 一 一 指 各 段 除 了 有 串 行 的 连接 外 ,还 有 反馈 回路 的 流水 线 。 

顺序 流水 线 一 一 流水 线 输出 端 任务 流出 的 顺序 与 输入 端 任务 流入 的 顺序 完全 相同 。 

乱 序 流水 线 一 一 流水 线 输 出 端 任务 流出 的 顺序 与 输入 端 任 务 流入 的 顺序 可 以 不 同 , 允 
许 后 进入 流水 线 的 任务 先 完成 。 这 种 流水 线 又 称 为 无 序 流水 线 、 错 序 流水 线 、 异 步 流水 线 。 

吞吐 率 一 一 指 在 单位 时 间 内 流水 线 所 完成 的 任务 数量 或 输出 结果 的 数量 。 

流水 线 的 加 速 比 一 一 指使 用 顺序 处 理 方式 处 理 一 批 任务 所 用 的 时 间 与 按 流 水 处 理 方式 
处 理 同 一 批 任务 所 用 的 时 间 之 比 。 

流水 线 的 效率 一 一 即 流水 线 设备 的 利用 率 , 它 是 指 流水 线 中 的 设备 实际 使 用 时 间 与 整 
个 运行 时 间 的 比值 。 

相关 一 一 指 两 条 指令 之 间 存 在 某 种 依赖 关系 。 

数据 相关 一 一 考虑 两 条 指令 i 和 j,i 在 j 的 前 面 ,如 果 下 述 条 件 之 一 成 立 , 则 称 指令 j 
与 指令 i 数据 相关 : 

(1) 指令 j 使 用 指令 i 产生 的 结果 ; 

(2) 指令 j 与 指令 k 数据 相关 ,而 指令 又 与 指令 i 数据 相关 。 

名 相关 一 一 如 果 两 条 指令 使 用 了 相同 的 名 ,但 是 它们 之 间 并 没有 数据 流动 , 则 称 这 两 条 
指令 存在 名 相关 。 

反 相 关 一 一 考虑 两 条 指令 i 和 j ,i 在 j 的 前 面 ,如 果 指 令 j 所 写 的 名 与 指令 i 所 读 的 名 
相同 , 则 称 指令 i 和 j 发 生 了 反 相 关 。 

输出 相关 一 一 考虑 两 条 指令 i 和 j ,i 在 j 的 前 面 ,如 果 指 令 j 和 指令 i 所 写 的 名 相同 ， 
则 称 指令 i 和 j 发 生 了 输出 相关 。 

换 名 技术 一 一 名 相关 的 两 条 指令 之 间 并 没有 数据 的 传送 ,只 是 使 用 了 相同 的 名 。 可 以 
把 其 中 一 条 指令 所 使 用 的 名 换 成 别 的 ,以 消除 名 相关 。 

控制 相关 一 一 指 由 分 支 指令 引起 的 相关 。 它 需要 根据 分 支 指令 的 执行 结果 来 确定 后 面 
该 执行 哪个 分 支 上 的 指令 。 

流水 线 冲 突 一 一 指 对 于 具体 的 流水 线 来 说 ,由 于 相关 的 存在 ,使 得 指令 流 中 的 下 一 条 指 
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令 不 能 在 指定 的 时 钟 周 期 开始 执行 。 

结构 冲突 一 一 因 硬 件 资源 满足 不 了 指令 重 倒 执行 的 要 求 而 发 生 的 冲突 。 

数据 冲突 一 一 当 指 令 在 流水 线 中 重生 执行 时 , 因 需 要 用 到 前 面 指令 的 执行 结果 而 发 生 
的 冲突 。 

控制 冲突 一 一 流水 线 遇 到 分 支 指令 或 其 他 会 改变 PC 值 的 指令 所 引起 的 冲突 。 

写 后 读 冲 突 一 一 考虑 两 条 指令 i 和 j, 且 i 在 j 之 前 进入 流水 线 , 指 令 j 用 到 指令 i 的 计 
算 结果 ,而 且 在 i 将 结果 写 人 寄存 器 之 前 就 去 读 该 寄存 器 ,因而 得 到 的 是 旧 值 。 

写 后 写 冲突 一 一 考虑 两 条 指令 i 和 j, 且 i 在 j 之 前 进入 流水 线 , 指 令 j 和 指令 i 的 结果 
寄存 器 相同 ,而 且 j 在 i 写 人 之 前 就 先 对 该 寄存 器 进行 了 写 人 操作 ,从 而 导致 写 人 顺序 错 
误 。 最 后 在 结果 寄存 器 中 留 下 的 是 i 写 入 的 值 。 

读 后 写 冲 突 一 一 考虑 两 条 指令 i 和 j , 且 i 在; 之 前 进入 流水 线 , 指 令 j 的 目的 寄存 器 和 
指令 i 的 源 操作 数 寄存 器 相同 ,而 且 j 在 i 读 取 该 寄存 器 之 前 就 先 对 它 进行 了 写 操作 ,导致 i 
读 到 的 值 是 错误 的 。 











1. 选择 题 

【 题 3.2】 答 : D 

【 题 3.3】 答 : B 

【 题 3.4】 答 : A 

【 题 3.5〗 答 : C 

【 题 3.6】 答 : B 

3. 填空 题 

【 题 3.7】 答 : 流水 线 的 深度 

【 题 3.8〗 答 : 瓶颈 

【 题 3.9】 答 : 向 量 \ 标 量 

【 题 3.10】 答 : 单 功能 流水 线 , 多 功能 流水 线 

【 题 3.11】 答 : 静态 流水 线 \ 动 态 流水 线 

【 题 3.12】 答 : 部 件 级 流水 线 、 处 理 机 级 流水 线 、 处 理 机 间 流 水 线 
【 题 3.13】 答 : 线性 流水 线 , 非 线性 流水 线 

【 题 3.14】 答 : 顺序 流动 流水 线 、 异 步 流动 流水 线 
【 题 3.15〗 答 : 111110、11011 

【 题 3.16】 答 : 最 大 吞吐 率 

【 题 3.17】 答 : 细 分 瓶颈 段 .重复 设置 瓶颈 段 

【 题 3. 18〗 答 : 数据 相关 、 名 相关 、 控 制 相 关 

【 题 3.19】〗 答 : 反 相关 ,输出 相关 

【 题 3.20】 答 : 结构 冲突 数据 冲突 、 控 制 冲突 

【 题 3.21】 答 : 写 后 读 冲突 、 写 后 写 冲 突 . 读 后 写 冲 突 
【 题 3. 22〗 答 : 分 支 延 迟 

【 题 3. 23〗 答 : 从 前 调度 、 从 目标 处 调度 、 从 失败 处 调度 
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【是 3.24】 答 : 取 指令 周期 .指令 译 码 / 读 寄 存 器 周期 、 执 行 /有 效 地 址 计算 周期 .存储 
器 访问 /分 支 完 成 周期 、 写 回 周期 


4. 问答 题 


【 题 3. 25】 答 : 流水 技术 具有 以 下 特点 。 

(1) 流水 线 把 一 个 处 理 过 程 分 解 为 若干 个 子 过 程 ,每 个 子 过 程 由 一 个 专门 的 功能 部 件 
来 实现 。 因 此 ,流水 线 实际 上 是 把 一 个 大 的 处 理 功能 部 件 分 解 为 多 个 独立 的 功能 部 件 ,并 依 
靠 它们 的 并 行 工作 来 提高 吞吐 率 。 

(2) 流水 线 中 各 段 的 时 间 应 尽 可 能 相等 ,否则 将 引起 流水 线 堵 塞 和 断 流 。 

(3) 流水 线 每 一 个 功能 部 件 的 前 面 都 要 有 一 个 缓冲 寄存 器 , 称 为 流水 寄存 器 。 

(4) 流水 技术 适合 于 大 量 重复 的 时 序 过 程 ,只 有 在 输入 端 不 断 地 提供 任务 ,才能 充分 发 
挥 流水 线 的 效率 。 

(5) 流水 线 需 要 有 通过 时 间 和 排 空 时 间 。 在 这 两 个 时 间 段 中 ,流水 线 都 不 是 满 负 荷 
工作 。 

【 题 3. 26〗 答 : 流水 寄存 器 的 作用 是 在 相 邻 的 两 段 之 间 传 送信 息 ,提供 后 面 流 水 段 要 
用 到 的 信息 。 

【是 3.27】 答 : 在 非 线性 流水 线 中 ,由 于 反馈 回路 的 存在 ,有 可 能 会 出 现 多 个 任务 争 用 
同一 段 的 冲突 现象 。 究 竟 应 按 什么 样 的 时 间 间 隔 向 流水 线 输入 新 任务 ,才能 既 不 发 生 冲 突 ， 
又 能 使 流水 线 有 较 高 的 吞吐 率 和 效率 ? 这 就 是 非 线性 流水 线 调 度 所 要 解决 的 问题 。 

【 题 3. 28〗 答 : 流水 化 功能 单元 ; @ 资 源 重复 ; 9) 暂停 流水 线 。 

【 题 3. 29】 答 : (1) 预 测 分 支 失败 : 沿 失败 的 分 支 继续 处 理 指令 ,就 好 像 什 么 都 没 发 生 
似 的 。 当 确定 分 支 是 失败 时 ,说 明 预 测 正确 ,流水 线 正 常 流动 ; 当 确定 分 支 是 成 功 时 ,流水 
线 就 把 在 分 支 指 令 之 后 取出 的 指令 转化 为 空 操作 ,并 按 分 支 目标 地 址 重新 取 指 令 执行 。 

(2) 预测 分 支 成 功 : 当 流 水 线 ID 段 检测 到 分 支 指令 后 ,一 旦 计算 出 了 分 支 目标 地 址 ， 
就 开始 从 该 目标 地 址 取 指 令 执 行 。 

(3) 延迟 分 支 : 主要 思想 是 从 人 逻辑 上 “延长 "分支 指令 的 执行 时 间 。 把 延迟 分 支 看 成 是 
由 原来 的 分 支 指令 和 若干 个 延迟 槽 构成 。 不 管 分 支 是 否 成 功 ,都 要 按 顺 序 执行 延迟 槽 中 的 
指令 。 

三 种 方法 的 共同 特点 : 它们 对 分 支 的 处 理 方法 在 程序 的 执行 过 程 中 始终 是 不 变 的 。 它 
们 要 么 总 是 预测 分 支 成 功 ,要 么 总 是 预测 分 支 失败 。 

【 题 3. 30〗】 答 : 延迟 分 支 方法 中 的 3 种 调度 策略 的 优 缺 点 如 表 3.6 所 示 。 

表 3.6 延迟 分 支 方法 中 的 3 种 调度 策略 的 优 缺 点 
调度 策略 对 调度 的 要 求 对 流水 线性 能 改善 的 影响 
从 前 调度 ”| 分 支 必须 不 依赖 于 被 调度 的 指令 总 是 可 以 有 效 提高 流水 线性 能 
0 分 支 转移 成 功 时 ,可 以 提高 流水 线性 能 。 
从 目标 处 调度 so 可 能 需要 复 | 但 由 于 复制 指令 ,可 能 加 大 程序 空间 
如 果 分 支 转移 成 功 , 必 须 保证 被 调度 的 指 


从 失败 处 调度 令 对 程序 的 执行 没有 影响 分 支 转移 失败 时 ,可 以 提高 流水 线性 能 
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5. 应 用 题 


【 题 3. 31】 
解 : (1) 每 条 指令 的 执行 时 间 为 : At 十 At 十 2At 一 4At 
连续 执行 N 条 指令 所 需 的 时 间 为 : 4NAt 
(2) 连续 执行 N 条 指令 所 需 的 时 间 为 : 4At 十 3(N 一 1)At 二 (3N 十 DAt 
(3) 连续 执行 N 条 指令 所 需 的 时 间 为 : 4At 十 2(N 一 1)At 二 (2N 十 2)At 








【 题 3. 32】 

解 : 

指令 /时 钟 1 2 3 4 5 6 7 8 9 
K IF ID EX EX 

K+1 IF ID stall EX EX EX EX 
K+2 IF stall ID EX EX stall EX 
计算 执行 完 三 条 指令 共 使 用 了 9 个 时 钟 周期 。 

【 题 3. 33】 

解 : (1) 


Tyipeline 一 Da 十 (n 一 1)Atmx 一 (50 十 50 十 100 十 200) 十 9X200 王 2200Cns) 


i=1 


1 

















0 
TP = 未 -二 320 Cns ) 
Da 
E= TP TP 400 = 5 45,45% 
m 4 11 


(2) 3、4 段 是 瓶颈 。 
@ 变 成 8 级 流水 线 ( 细 分 ) ,如 图 3.7 所 示 。 


全 | 1 -| 2 En Ess Ee pm 


S50ns 50ns 50ns 50ns 50ns 50ns 
































图 3.7 8 级 流水 线 








Ta = 2 Atit (n—1)Atmx = 50X 8+9X50= 850(ns) 




















这 nn Es 要 一 1 
TP 一 元 一 一 南 人 ns) 
2 400 _ 10 
> 。 =1 加 0 
E= TP. TP = 17 ~ 58.82% 
@ 重复 设置 部 件 ( 如 图 3. 8 所 示 ) 
和 二 
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一 | 4-1 
人 -| 4 2 
一 -| 广 一 
一 | 3-2 一 | 4-3 
一 | 4-4 
图 3.8 重复 设置 部 件 
段 
4-4 | 4 8 
4.3 [ ;3 7 
42 2 6 10 
本 1 5 9 ! 
3-2 2 |4|16|1s | ! 
3-1 1 3 5 | 7 | ! 
2| |1|2|13|4|5|6|7|8|9|i0 ! 
1|1|213|4|5|6|7|8|9|10 1 时 间 
850ns 
图 3.9 时 空 图 
~ -400X10 _ 10 、 
四 850X8 17 5 
【 题 3. 34】 
解 : (1) 会 发 生 流水 线 阻塞 情况 ,如 表 3.7 所 示 。 
表 3.7 流水 线 阻塞 情况 
第 1 个 任务 Ss S Ss S S, 
第 2 个 任务 Ss S stall | Ss; Ss 总 
第 3 个 任务 Ss stall S stall SS S; Ss, 
第 4 个 任务 Ss stall | Ss, stall | Ss Ss; Ss, 





























(2) 不 阻塞 情况 。 













































































段 4 

4 1 2| |3 4| |6 7| |8| |9| lo 

3 i 2|2|3|3|4 5|5 | s|s |9 19 |iolio | 

2| | | 3| |4| |5 | 7| 8 |。 10 1 

10 2| 3| |4 5| | yh |s 9| 10| 1 时 间 
23A1 


3.10 时 空 图 
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NA 
TP 一 2At 
T pipetine 一 23At 
0 
a 23At 
E= TP 于 == 纺 守 54.35% 
(3) 重复 设置 部 件 。 
Ar 
3-1 
-| 1 -| 2 -| 4 
Ar At “ -32 Ar 
= - 和 
1 


3.11 重复 设置 部 件 





















































段 人 

4 1|:|3|4|s|c|， s|9| | 

3-2 2|:|4|4|sjslslslioliol ， 

3-1 回回 回回 回回 回国 巨 9 | | 

2 1|2|3|4|5|s|j7|s|9|no | 

1| 1 |2|13|1415|56 7|s 9 |10| ! 时 间 
14Ar 


3.12 重复 设置 部 件 后 的 时 空 图 

















元 二 罗 元 六 
再 

春 吐 率 提高 信 数 一 一 人 一 1. 64 
33 


【 题 3. 35】 

解 : 首先 ,应 选择 适合 于 流水 线 工 作 的 算法 。 对 于 本 题 ,应 先 计算 A; 十 B, 、A, 十 了 B:、 
A; 十 B， 和 A, 十 B,; 再 计算 (A, 十 B,)X(A: 十 B:) 和 (A: 十 Bs)X(A, 十 B,);， 然后 求 总 的 
结果 。 

其 次 , 画 出 完成 该 计算 的 时 空 图 ,如 图 3. 13 所 示 ,图 中 阴影 部 分 表示 该 段 在 工作 。 

由 图 3. 13 可 见 , 它 在 18 个 Az 时 间 中 ,给 出 了 7 个 结果 。 所 以 吞吐 率 为 : 


昌 
0 18At 


如 果 不 用 流水 线 , 由 于 一 次 求 积 需 3At, 一 次 求 和 需 5At, 则 产生 上 述 7 个 结果 共 需 (4X 
5 十 3X3)At 二 29At。 所 以 加 速 比 为 : 
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AXB CXD AXBXCXD 
人 
















































































A=41+B1 
,B=43+B, 
C=43+B3 
， D=44+Bs 
输 0 1 2 8 9 101112 13 14151617 18 时 间 
入 4 AC AXB 
Bi By By Bs BD CxD 
图 3.13 时空 图 
29At _ 
Re 1.61 
该 流水 线 的 效率 可 由 阴影 区 的 面积 和 5 个 段 总 时 空 区 的 面积 的 比值 求 得 : 
,_ 4X5+3X3_。， 
E= 5xX18 0.322 


【 题 3. 36】 

解 : 首先 ,应 选择 适合 于 流水 线 工作 的 算法 。 对 于 本 题 ,应 先 计算 A X Bi、A, X B,、 
A;XB， 和 A,XB; 再 计算 (A1XBi) 十 (As XB,) 和 (AsXB;) 十 (A4 XB,); 然后 求 总 的 累 
加 结果 。 

其 次 , 画 出 完成 该 计算 的 时 空 图 ,如 图 3. 14 所 示 , 图 中 阴影 部 分 表示 该 段 在 工作 。 


段 A B C DA+B C+D A+B+C+D 














1 | 加 
123435678910112131415 16 17 18 时 间 





0 
输 Al A A3 44 A Cc A+B 
入 Bi 应 B BB D C+D 
图 3.14 时 空 图 
由 图 3. 14 可 见 , 它 在 18 个 At 时 间 中 ,给 出 了 7 个 结果 。 所 以 吞吐 率 为 : 
a 
TP = Tem 


如 果 不 用 流水 线 , 由 于 一 次 求 积 需 4At, 一 次 求 和 需 4At, 则 产生 上 述 7 个 结果 共 需 (4X 
4 十 3X4)At 王 28At。 所 以 加 速 比 为 : 


该 流水 线 的 效率 可 由 阴影 区 和 5 个 段 总 时 空 区 的 比值 求 得 ; 


第 3 章 流水 线 技术 69 





_4X4 十 3X4 


四 5X18 


0.31 


【 题 3. 37】 
解 : 机 器 一 共 要 做 10 次 乘法 ,4 次 加 法 。 时 空 图 如 图 3. 15 所 示 。 


(1) 





te 14X4 
效率 = 5X6 -42.42% 





3.15 时 空 图 


【是 3. 38】 
解 : 流水 线 的 预约 表 如 表 3. 8 所 示 。 


表 3.8 流水 线 的 预约 表 
































【 题 3. 39】 

解 : (1) 由 预约 表 得 出 禁止 表 : F 一 18.4.3.1) 

为 避免 争 用 Si 段 ,禁用 启动 距离 : 8; 为 避免 争 用 S, 段 , 禁 用 启动 距离 : 1; 为 避免 争 用 
Ss 段 ,禁用 启动 距离 : 3,4,1; 为 避免 争 用 S, 段 , 禁 用 启动 距离 : 1; 为 避免 争 用 Ss 段 , 禁 用 
启动 距离 : 1 。 

由 禁止 表 得 到 初始 冲突 向 量 : Co 二 (10001101) 

Co 一 (10001101) 有 4 个 后 继 状 态 : 

Ci=SHR® (Co) V Co 一 (00100011) V(10001101) 王 (10101111) 
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Cs=SHR®Y (Cu) V C= (00000100) V (10001101)=(10001101)= C6 
Cs=SHR'® (Co) V C= (00000010) V (10001101)=(10001111) 
C=SHR®? (Co) VC,=(00000001) V (10001101)=(10001101)= Co 
Ci 二 (10101111) 有 两 个 后 继 状 态 : 

Cs=SHR® (CYVC,=(10001101)=C, 

Cs=SHR®(C)V C=(10001101)=Co 

Cs 二 (10101111) 有 三 个 后 继 状 态 : 

C=SHR® (Cs) V C=(10001101)= Co 
Cs=SHR'Y (Cs) VGC,=(10001111)= Cs 

Cs=SHR®™ (Cs)V C=(10001101)= Co 

得 出 状态 转移 图 如 图 3. 16 所 示 。 








图 3.16 状态 转移 图 
各 种 调度 策略 及 平均 延迟 时 间 如 表 3. 9 所 示 。 
表 3.9 调度 策略 及 平均 延迟 时 间 























调度 策略 平均 延迟 时 间 
(2,5) 3.5At 
(2,7) 4.5At 

(5) 5At 
(6,5) 5.5At 
(6) 6At 
(6,7) 6.5At 
(7) 7At 





(2) 在 表 3.9 中 ,平均 延迟 时 间 最 小 的 调度 策略 是 最 优 调度 策略 : (2,5); 流水 线 的 最 
大 吞吐 率 就 是 最 优 调度 策略 的 最 大 吞吐 率 : 1/(3. 5Az) 。 
(3) 按 最 优 调度 策略 连续 输入 6 个 任务 流水线 的 实际 吞吐 率 为 : 


6 6 


人 (2 十 5 十 2 十 5 十 2 十 9)At 25At 








【 题 3. 40】 
解 : (1) 由 预约 表 得 出 禁止 表 : F= {6,3.1) 
为 避免 争 用 Si 段 ,禁用 启动 距离 : 6; 为 避免 争 用 S; 段 , 禁 用 启动 距离 : 3; 为 避免 争 用 
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Ss 段 ,禁用 启动 距离 : 1; 为 避免 争 用 S, 段 ,禁用 启动 距离 : 3; 为 避免 争 用 S; 段 ,禁用 启动 
距离 : Vs 

由 禁止 表 得 到 初始 冲突 向 量 : Co 一 (100101), 由 初始 冲突 向 量 和 后 继 冲 突 向 量 的 计算 
公式 Cj 二 SHR®(C;)V Co ,可 得 流水 线 任务 调度 的 状态 转移 图 如 图 3. 17 所 示 。 





图 3.17 流水 线 任务 调度 的 状态 转移 图 


(2) 由 状态 转移 图 可 得 不 发 生 段 争 用 冲突 的 调度 策略 以 及 平均 延迟 时 间 , 如 表 3. 10 
所 示 。 


表 3.10 调度 策略 和 平均 延迟 时 间 

















调度 策略 平均 延迟 时 间 
(2,2,5) 3At 
(2,5) 3.5At 
(4) 4At 
(4,5) 4.5At 
(5) 5At 





由 表 3. 10 可 知 ,允许 不 等 时 间 间 隔 调度 的 最 优 调度 策略 是 (2,2,5) ,流水 线 最 大 吞吐 率 
为 : 1/(3At)。 等 时 间 间 隔 调 度 的 最 优 调度 策略 是 (4) ,流水 线 最 大 吞吐 率 为 : 1/(4Az) 。 
(3) 按 调度 策略 (2,2,5) ,连续 输入 10 个 任务 的 流水 线 实际 吞吐 率 与 加 速 比分 别 为 : 

















TP 10 10 
” (2 十 2 十 5 十 2 十 2 十 5 十 2 十 2 十 5 十 7)At 34At 
_ lO0OX7At __ 
Si= so 0 
按 调度 策略 (4) ,连续 输入 10 个 任务 的 流水 线 实际 吞吐 率 与 加 速 比 分 别 为 : 
-10 10 
a (4X9 十 7)At 43At 
_10X7At _ 
SS 1.63 
【 题 3. 41】 
解 : 


(1) 寄存 器 读 写 可 以 定向 ,无 其 他 旁 路 硬件 支持 。 排 空 流水 线 时 空 图 如 图 3. 18 所 示 。 
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指令 112|13|14|5|16|7|8|9|10|11|12|13|14|15|16|17|18|19|20|21|22 
LW IF ID EX M WB 

DADDIU IF S S IID EX M WB 

SW IF IS IS IID IEX IM IWB 

DADDIU IF ID EX M WB 

DSUB IF IS SS _ IID IEX M WB 

BNEZ IF S I'S ID EXIM ‘WB 

LW IFS S IF IID IEX M WB 


图 3.18 排 空 流水 线 时 空 图 


第 i 次 迭代 (i 二 0…98) 开 始 周期 : 1 十 (iX17) 
(2) 有 正常 定向 路 径 ,预测 分 支 失败 ,如 图 3. 19 所 示 。 


指令 1 2|13|4|15|16|7|8|9|10|11|12|113|14|15 
LW F ID EX M WB 

DADDIU IF ID S EX M WB 

SW F S ID EX M WB 

DADDIU IF ID EX M WB 

DSUB F ID EX M WB 

BNEZ IF ID EX M WB 

LW IF miss miss IF 1D EX IM WB 


图 3.19 采用 预测 分 支 失 败 的 时 空 图 


第 i 次 迭代 (i 二 0…98) 开 始 周期 : 1 十 (iX10) 
总 的 时 钟 周期 数 : (98X10) 十 11 二 991 
(3) 有 正常 定向 路 径 。 单 周期 延迟 分 支 的 时 空 图 如 图 3. 20 所 示 。 
LOOP: LW R1,0(R2) 
DADDIU R2,R2,#4 
DADDIU R1,R1,#1 
DSUB R4, R3, R2 
BNEZ R4, LOOP 
SW R1l, -4(R2) 


第 i 次 迭代 (i = 二 0…98) 开 始 周期 : 1 十 (iX6) 
总 的 时 钟 周期 数 : (98X6) 十 10 王 598 


痢 令 1[2[3|[|4[5[|6|7|g[|9[1olll 
LW IF ID EX M WB 

DADDIU IF ID EX M WB 

DADDIU IF ID EX M WB 

DSUB IF ID EX M WB 

BNEZ IF ID EX M WB 

SW IF ID EX M WB 
LW F ID EX M WB 


图 3. 20 采用 单 周期 延迟 分 支 的 时 空 图 
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【 题 3. 42】 
解 : 没有 控制 相关 时 流水 线 的 平均 CPI==1。 
存在 控制 相关 时 ,由 于 无 条 件 分 支 在 第 二 个 时 钟 周期 结束 时 就 被 解析 出 来 ,而 条 件 分 支 
要 到 第 3 个 时 钟 周期 结束 时 才能 被 解析 出 来 。 所 以 : 
(1) 若 使 用 排 空 流水 线 的 策略 , 则 对 于 条 件 分 支 ,有 两 个 额外 的 停顿 ,对 无 条 件 分 支 , 有 
一 个 额外 的 停顿 : 
CPI=1+20% Xx2+5%X1= 1.45 
加 速 比 S= CPI/1 = 1.45 
(2) 若 使 用 预测 分 支 成 功 策略 , 则 对 于 不 成 功 的 条 件 分 支 , 有 两 个 额外 的 停顿 ,对 无 条 
件 分 支 和 成 功 的 条 件 分 支 ,有 一 个 额外 的 停顿 ; 
CPI=1+20% Xx (60% Xl1+40% XxX2)+5% XxX1= 1.33 
加 速 比 S=CPI/1 = 1.33 
(3) 若 使 用 预测 分 支 失败 策略 , 则 对 于 成 功 的 条 件 分 支 , 有 两 个 额外 的 停顿 ; 对 无 条 件 
分 支 ,有 一 个 额外 的 停顿 ; 对 不 成 功 的 条 件 分 支 ,其 目标 地 址 已 经 由 PC 值 给 出 ,不必 等 待 ， 
所 以 无 延迟 : 
CPI=1+20% Xx (60% X2+40% X0)+5%X1= 1.29 
加 速 比 S = CP1/1 = 1.29 
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4.1 基本 要 求 与 难点 


4.1.1 基本 要 求 


(1) 掌握 有 关 向 量 处 理 机 的 基本 概念 。 

(2) 掌握 向 量 处 理 机 的 3 种 方式 及 其 特点 。 

(3) 理解 向 量 处 理 机 的 两 种 结构 。 

(4) 掌握 向 量 处 理 机 上 一 个 向 量 指令 序列 是 否 能 并 行 执行 或 链接 执行 的 判断 方法 ,并 
能 计算 指令 序列 的 总 执行 时 间 。 

(5) 掌握 向 量 处 理 机 的 性 能 指标 的 定义 及 其 计算 方法 。 

(6) 了 解 Cray Y-MP、C-90 和 NECSX-X44 向 量 处 理 机 的 结构 。 


4.1.2 难点 
(1) 向 量 处 理 机 上 一 个 向 量 指令 序列 是 否 能 并 行 执行 或 链接 执行 的 判断 。 该 指令 序列 


的 执行 时 间 的 计算 。 
(2) 向 量 处 理 机 的 性 能 指标 的 定义 及 其 计算 方法 。 


4.2 知识 要 点 


向 量 处 理 机 : 设置 了 向 量 数据 表示 和 向 量 指令 的 流水 线 处 理 机 。 
标量 处 理 机 : 不 具有 向 量 数据 表示 和 向 量 指令 的 处 理 机 。 


4.2.1 向 量 的 处 理 方式 


1. 横向 处 理 方式 


在 横向 处 理 方式 中 ,向 量 计 算是 按 行 的 方式 从 左 到 右 横 向 地 进行 。 
这 种 处 理 方式 只 适合 于 一 般 的 处 理 机 ,不 适合 于 向 量 处 理 机 的 并 行 处 理 。 
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2. 纵向 处 理 方式 


在 这 种 方式 中 ,向 量 计 算是 按 列 的 方式 从 上 到 下 纵向 地 进行 。 也 就 是 说 ,是 将 整个 向 量 
按 相同 的 运算 处 理 完 之 后 ,再 去 进行 别 的 运算 。 这 种 处 理 方式 适用 于 向 量 处 理 机 ,对 向 量 长 
度 N 的 大 小 没有 限制 。 


3. 纵横 处 理 方式 


纵横 处 理 方式 又 称 为 分 组 处 理 方式 ,是 上 述 两 种 方法 的 一 种 结合 。 它 是 把 向 量 分 成 若 
干 组 ,组 内 按 纵向 方式 处 理 , 依 次 处 理 各 组 。 这 种 处 理 方式 对 向 量 长 度 N 的 大 小 也 不 限制 ， 
但 它 是 以 每 n 个 元 素 为 一 组 进行 分 组 处 理 的 。n 的 值 是 固定 的 。 

这 种 处 理 方式 也 适用 于 向 量 处 理 机 。 


4.2.2 向 量 处 理 机 的 结构 


向 量 处 理 机 的 结构 主要 是 由 其 所 采用 的 向 量 处 理 方式 决定 的 。 有 两 种 典型 的 结构 : 存 
储 器 -存储 器 型 结构 ,寄存 器 -寄存 器 型 结构 。 纵 向 处 理 方式 宜 采用 前 者 ,而 分 组 处 理 方式 则 
宜 采 用 后 者 。 


1.“ 存 储 器 -存储 器 ”结构 


在 纵向 处 理 方式 中 ,向 量 长 度 N 的 大 小 不 受 限 制 , 无 论 N 有 多 大 ,相同 的 运算 都 用 一 
条 向 量 指令 完成 。 在 这 种 向 量 处 理 机 中 ,流水 线 运算 部 件 的 输入 和 输出 端 都 直接 (或 经 过 缓 
冲 器 ) 与 存储 器 相连 ,从 而 构成 “存储 器 -存储 器 "型 操作 的 运算 流水 线 。 

这 种 结构 对 存储 器 的 带宽 以 及 存储 器 与 处 理 部 件 的 通信 带宽 提出 了 非常 高 的 要 求 。 一 
般 是 通过 采用 多 体 交 叉 并 行 存储 器 和 缓冲 器 技术 来 解决 。 


2.“ 寄 存 器 -寄存 器 "结构 


在 向 量 的 分 组 处 理 方式 中 ,向 量 被 分 为 每 个 数据 一 组 。 以 组 为 单位 进行 数据 的 存 取 
和 运算 。 组 的 长 度 是 固 定 不 变 的 ,所 以 可 以 设置 能 快速 访问 的 向 量 寄存 器 ,用 于 存放 源 向 
量 、 目 的 向 量 及 中 间 结 果 。 让 运算 部 件 的 输入 、 输 出 端 都 与 向 量 寄存 器 相连 ,就 构成 了 “寄存 
器 -寄存 器 ”型 操作 的 运算 流水 线 。 

Cray-1 是 美国 CRAY 公司 于 1976 年 推出 的 巨型 计算 机 , 它 的 时 钟 周期 是 12. 5ns, 其 
浮 点 运算 速度 达到 了 1 亿 次 / 秒 以 上 。 它 是 典型 的 采用 ”寄存 器 -寄存 器 ”结构 的 向 量 机 。 它 
由 以 下 几 个 部 分 构成 。 

(1) 功能 部 件 。 共 有 12 条 可 并 行 工作 的 单 功能 流水 线 ,可 分 别 流水 地 进行 地 址 、 向 量 、 
标量 的 各 种 运算 。 

(2) 向 量 寄存 组 V。 由 512 个 64 位 的 寄存 器 组 成 ,分 成 8 组 ,编号 为 wo 一 V; 。 每 一 个 
组 称 为 一 个 向 量 寄存 器 。 

(3) 标量 寄存 器 S 和 快速 暂 存 器 了 。 标 量 寄存 器 有 8 个 : So 一 S$; ,都 是 64 位。 

(4) 向 量 屏蔽 寄存 器 VM。64 位 ,每 一 位 对 应 于 向 量 寄存 器 的 一 个 单元 。 其 作用 是 用 





wr 
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于 向 量 的 归并 、 压 缩 `. 还 原 和 测试 操作 等 ,也 可 用 于 实现 对 向 量 某 些 元 素 的 单独 运算 。 

为 了 能 充分 发 挥 向 量 寄存 器 和 可 并 行 工作 的 6 个 流水 线 功 能 部 件 的 作用 ,加 快 对 向 量 
的 处 理 ,Cray-l 中 的 每 个 向 量 寄存 器 Vi 都 有 连 到 6 个 向 量 功能 部 件 的 单独 总 线 , 而 每 个 向 
量 功能 部 件 也 都 有 把 运算 结果 送 回 向 量 寄存 器 组 的 总 线 。 这 样 , 只 要 不 出 现 Vi 冲突 和 功能 
部 件 冲突 ,各 V; 之 间 和 各 功能 部 件 之 间 都 能 并 行 工 作 , 大 大 加 快 了 向 量 指令 的 处 理 , 这 是 
Cray-1 向 量 处 理 的 一 个 显著 特点 。 

Cray-1 的 指令 系统 包括 标量 类 和 向 量 类 指令 共 128 条 ,其 中 3 种 向 量 指令 为 : “向 
量 - 向 量 ” 之 间 的 运算 ,从 两 个 向 量 寄存 器 V;、Vi 取 得 源 向 量 , 进 行 运算 操作 后 结果 送 入 向 量 
寄存 器 Vi; @*“ 向 量 - 标 量 " 之 间 的 运算 , 它 与 第 种 指令 的 区 别 在 于 它 的 一 个 操作 数 取 自 标 
量 寄存 器 S; ; 第 @ 种 指令 用 于 实现 主 存 与 向 量 寄存 器 组 之 间 的 成 组 数据 传送 。 


4.2.3 提高 向 量 处 理 机 性 能 的 常用 技术 


为 了 提高 向 量 处 理 机 的 性 能 ,可 采用 多 种 方法 。 
(1) 设置 多 个 功能 部 件 ,使 它们 并 行 工作 ; 
(2) 采用 链接 技术 ,加 快 一 串 向 量 指令 的 执行 ; 
(3) 采用 循环 开采 技术 ,加 快 循环 的 处 理 ; 
(4) 采用 多 处 理 机 系统 ,进一步 提高 性 能 。 


1. 设置 多 个 功能 部 件 


在 向 量 处 理 机 中 ,为 了 提高 性 能 ,通常 都 设置 多 个 独立 的 功能 部 件 。 这 些 部 件 能 按 流 水 
方式 并 行 工作 ,从 而 形成 了 多 条 并 行 工作 的 运算 操作 流水 线 。 


2. 链接 技术 


当 流 出 向 量 指令 时 ,需要 占用 相关 的 功能 流水 线 和 向 量 寄存 器 。 只 有 等 该 指令 执行 完 
毕 , 才 可 以 释放 功能 流水 线 和 向 量 寄 存 器 。 占 用 多 少时 间 取决 于 向 量 的 长 度 和 流水 线 延 迟 。 

(1) 当 两 条 向 量 指令 之 间 既 没有 W; 冲 突 , 也 没有 功能 部 件 冲突 时 ,可 以 并 行 执行 。 

Vi 冲突 是 指 多 条 向 量 指令 的 源 向 量 或 结果 向 量 要 使 用 相同 的 Wi, 功能 部 件 冲 突 是 指 多 
条 向 量 指令 要 使 用 同一 个 功能 部 件 。 

(2) 当 两 条 向 量 指令 发 生 功 能 部 件 冲突 时 ,后 一 条 指令 要 等 前 一 条 执行 完成 、 释 放 功 能 
部 件 后 才能 流出 。 

(3) 当 两 条 向 量 指令 发 生 Vi 冲突 时 ,要 等 前 一 条 执行 完成 .释放 寄存 器 后 ,后 一 条 指令 
才能 流出 。 

(4) 当前 一 条 指令 的 结果 寄存 器 是 后 一 条 指令 的 源 寄 存 器 , 且 不 存在 其 他 冲突 时 ,就 可 
以 用 链接 技术 来 提高 性 能 。 

向 量 流水 线 链接 是 指 : 具有 先 写 后 读 相 关 的 两 条 指令 ,在 不 出 现 功 能 部 件 冲 突 和 Vi; 冲 
突 的 情况 下 ,可 以 把 功能 部 件 链接 起 来 进行 流水 处 理 ,以 达到 加 快 执行 的 目的 。 具 体 来 说 ， 
就 是 当前 一 个 向 量 功 能 部 件 产 生 第 一 个 结果 并 送 到 结果 向 量 寄存 器 的 入 口 时 ,将 该 结果 立 
即 送 往 下 一 个 功能 部 件 的 入 口 ,开始 后 续 的 向 量 处 理 操 作 。 此 后 依次 得 到 的 中 间 结 果 都 按 
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此 处 理 。 这 样 ,前 面 功 能 部 件 的 结果 元 素 一 产生 ,就 可 以 立即 被 后 面 功 能 部 件 所 使 用 ,而 不 
用 等 结果 向 量 全 部 产生 后 再 来 使 用 。 

链接 特性 是 Cray-1 向 量 处 理 的 一 个 显著 特点 。 

由 于 同步 的 要 求 ,链接 时 ,Cray-l 中 把 向 量 数据 元 素 送 往 向 量 功 能 部 件 以 及 把 结果 存 
和 向量 寄存 器 都 需要 一 拍 时 间 , 从 存储 器 中 把 数据 送 入 访 存 功 能 部 件 也 需要 一 拍 时 间 。 

进行 向 量 链接 时 ,除了 要 求 无 Vi 冲突 和 无 功能 部 件 使 用 冲突 外 ,还 有 一 些 别 的 要 求 。 

(1) 只 有 在 前 一 条 指令 的 第 一 个 结果 元 素 送 入 结果 向 量 寄 存 器 的 那 一 个 时 钟 周期 才 可 
以 进行 链接 。 如 果 错 过 这 个 时 刻 ,就 无 法 进行 链接 了 ,这 时 只 好 按 串 行 方式 执行 这 两 条 
指令 。 

(2) 当 一 条 向 量 指令 的 两 个 源 操作 数 分 别 来 自前 面 紧邻 的 两 条 指令 的 结果 时 ,要 求 这 
两 条 指令 产生 运算 结果 的 时 间 必 须 相 等 , 即 要 求 有 关 功 能 部 件 的 通过 时 间 相 等 。 

(3) 要 进行 链接 执行 的 向 量 指令 的 向 量 长 度 必须 相等 ,否则 无 法 进行 链接 。 


3. 分 段 开采 技术 


当 向 量 的 长 度 大 于 向 量 寄存 器 的 长 度 时 ,必须 把 长 向 量 分 成 长 度 固 定 的 段 , 然 后 循环 分 
段 处 理 , 每 一 次 循环 只 处 理 一 个 向 量 段 。 这 种 技术 称 为 分 段 开 采 技 术 。 将 长 向 量 分 段 成 循 
环 处 理 是 由 系统 自动 完成 的 ,对 程序 员 是 透明 的 。 


4. 采用 多 处 理 机 系统 


为 了 进一步 提高 系统 的 向 量 处 理性 能 ,许多 新 型 向 量 处 理 机 系统 采用 了 多 处 理 机 系统 
结构 。 例 如 ,在 Cray-l 的 基础 上 ,CRAY 公司 在 20 世纪 80 年 代 推 出 了 Cray-2、Cray 
X-MP ,在 20 世纪 90 年 代 推出 了 Cray Y-MP、C90, 这 些 机 器 基本 上 保持 了 Cray-l 的 基本 结 
构 ,但 都 已 经 发 展 成 为 多 处 理 机 系统 。Cray-2 包含 4 个 向 量 处 理 机 , 浮 点 运算 速度 最 高 可 
达 1800MFLOPS。Cray Y-MP、C90 最 多 可 包含 16 个 向 量 处 理 机 。 





4.2.4 向 量 处 理 机 的 性 能 评价 


衡量 向 量 处 理 机 性 能 的 主要 参数 有 : 向 量 指令 的 处 理 时 间 T。 ,向 量 长 度 为 无 穷 大 时 的 
向 量 处 理 机 的 最 大 性 能 R- , 半 性 能 向 量 长 度 jz ,向 量 长 度 临 界 值 w 。 


1. 向 量 指令 的 处 理 时 间 T 


1) 一 条 向 量 指令 的 执行 时 间 T。 
Two 十 2 了 {4.19 

其 中 ,Ts 为 从 一 条 向 量 指令 开始 执行 到 还 差 一 个 时 钟 周期 就 产生 第 一 个 结果 所 需 的 
时 钟 周期 数 。 可 称 之 为 该 向 量 指令 的 启动 时 间 。 此 后 , 便 是 每 个 时 钟 周期 流出 一 个 结果 , 共 
及 个 结果 。 

2) 一 组 向 量 指令 的 总 执行 时 间 

一 组 向 量 指令 的 执行 时 间 主 要 取决 于 3 个 因素 : 向 量 的 长 度 . 向 量 操作 之 间 是 否 存在 
流水 功能 部 件 的 使 用 冲突 以 及 数据 的 相关 性 。 我 们 把 能 在 同一 个 时 钟 周期 内 一 起 开始 执行 
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的 几 条 向 量 指令 称 为 一 个 编队 。 同 一 个 编队 中 的 向 量 指令 之 间 一 定 不 存在 流水 功能 部 件 的 
冲突 或 数据 的 相关 性 。 如 果 存 在 这 种 冲突 或 相关 ,那么 就 必须 将 它们 编 和 不同 的 编队 。 
编队 后 ,这 个 向 量 指令 序列 的 总 的 执行 时 间 为 : 
了 二 Ye tt me), 《4 2 


令 的 启动 时 间 的 最 大 值 ,m 为 编队 的 个 数 ,n 为 向 量 的 长 度 。 
如 果 表 示 成 时 钟 周期 个 数 , 则 


Tu = Tsar mn (4.3) 
3) 分 段 开 采 时 一 组 向 量 指令 的 总 执行 时 间 
Tu = [wr | X (Tyan t+ Tioop) + mn (4. 4) 


Tem 为 循环 所 引入 的 额外 时 间 ( 时 钟 周 期 数 ) 。 
2. 最 大 性 能 R- 和 半 性 能 向 量 长 度 mn 


最 大 性 能 R- 表 示 当 向 量 长 度 为 无 穷 大 时 ,向 量 处 理 机 的 最 大 性 能 ,也 称 为 峰值 性 能 。 
单位 是 MFLOPS。 





(4.5) 





R_ 二 lim 向 量 指令 序列 中 浮 点 运算 次 数 x 时 钟 频率 
” me 向 量 指令 序列 执行 所 需 的 时 钟 周期 数 


半 性 能 向 量 长 度 ws 是 指向 量 处 理 机 的 性 能 为 其 最 大 性 能 R- 的 一 半 时 所 需 的 向 量 长 
度 。 它 是 评价 向 量 流水 线 的 建立 时 间 对 性 能 影响 的 重要 参数 。 若 向 量 长 度 n 二 ms, 则 表明 
整个 向 量 流 水 处 理 时 间 中 只 有 一 半 是 在 做 有 效 操作 ,而 另 一 半 是 浪费 掉 了 。 

通常 都 希望 向 量 处 理 机 有 较 小 的 mm 。 实 际 测试 表明 ,Cray-l 的 mm 为 10 一 20,Cyber 
205 的 ms 为 100。 这 表明 Cray-1 的 流水 线 建 立时 间 比 Cyber 205 的 要 小 很 多 。 


3. 向 量 长 度 临界 值 n， 


向 量 长 度 临界 值 n 是 指向 量 流水 方式 的 处 理 速度 优 于 标量 串 行 方式 的 处 理 速度 时 所 
需 的 向 量 长 度 的 最 小 值 。 该 参数 既 衡 量 建 立时 间 ,也 衡量 标量 ,向 量 处 理 速 度 比 对 向 量 处 理 
机 性 能 的 影响 。 


习 题 


1. 概念 题 


【是 4.1】 解释 下 列 名 词 

横向 处 理 方式 纵向 处 理 方式 纵横 处 理 方式 向 量 流水 线 链接 
Vi 冲突 功能 部 件 冲 突 分 段 开 采 技 术 半 性 能 向 量 长 度 
向 量 长 度 临 界 值 
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2. 填空 题 
【是 4.2】 向 量 流水 处 理 机 采用 结构 或 结构 。 
【 题 4. 3】 Cray-1 向 量 处 理 的 一 个 显著 特点 是 : 只 要 不 出 现 冲突 和 





冲突 ,各 Vi 之 间 和 各 功能 部 件 之 间 都 能 并 行 工作 。 

【 题 4. 4】 衡量 向 量 处 理 机 性 能 的 主要 参数 有 
和 

【 题 4.5】 把 能 在 同一 个 时 钟 周期 内 一 起 开始 执行 的 几 条 向 量 指令 称 为 一 


【是 4.6】 在 向 量 流水 处 理 机 上 ,向 量 指令 序列 中 的 一 个 编队 内 的 指令 可 以 








本 





执行 ,编队 执行 时 间 为 编队 内 所 有 的 向 量 指令 执行 时 间 的 
3. 选择 题 
【 题 4. 7〗 Cray-1 的 流水 线 是 ( Ds 
A. 多 条 单 功能 流水 线 B. 一 条 单 功能 流水 线 
C. 多 条 多 功能 流水 线 D. 一 条 多 功能 流水 线 


【 题 4. 8〗 Cray-1 向 量 处 理 机 要 实现 指令 间 的 链接 ,必须 满足 下 列 条 件 中 的 ( 0 

A. 源 向 量 相同 ,功能 部 件 不 冲突 ,有 指令 相关 

B. 源 向 量 不 同 , 功 能 部 件 相同 ,无 指令 相关 

C. 源 向 量 、 功 能 部 件 都 不 相同 ,指令 有 写 后 读 冲突 

D. 源 向 量 、 功 能 部 件 都 不 相同 ,指令 有 读 后 写 冲突 

【 题 4. 9】 Cray-1 向 量 处 理 机 启动 存储 器 、 流 水 部 件 及 寄存 器 打 入 各 需 一 拍 , 现 有 向 量 
指令 串 : 


Vs: 一 存储 器 (从 存储 器 中 取 数 : 6 拍 ) 

VieV 十 W (向 量 加 : 6 拍 ) 

VseV3 XV (向 量 乘 : 7 拍 ) 

向 量 长 度 均 为 N, 则 指令 串 最 短 的 执行 时 间 是 ( 人 

A. 16 十 N 拍 B. 17 十 N 拍 C. 18 十 N 拍 D. 19 十 N 拍 
【 题 4. 10〗 Cray-1 的 两 条 向 量 指 今 : 

Vi<Vs+Vs 

Vi 二 Vi XVs 

属于 ( 和 


A. 没有 功能 部 件 冲突 和 源 向 量 冲突 ,可 以 并 行 
B. 没有 功能 部 件 冲突 和 源 向 量 冲 突 , 可 以 链接 
C. 没有 源 向 量 冲突 ,可 以 交换 执行 顺序 

D. 有 向 量 冲突 ,只 能 串 行 


4. 问答 题 
【 题 4.11】 简 述 3 种 向 量 处 理 方式 ,它们 对 向 量 处 理 机 的 结构 要 求 有 何不 同 ? 
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【是 4.12】 可 采用 哪些 方法 来 提高 向 量 处 理 机 的 性 能 ? 
【是 4.13】 采用 链接 技术 时 ,向 量 指令 能 够 链接 执行 必须 满足 哪些 条 件 ? 


5. 应 用 题 


【 题 4. 14】 在 Cray-l 机 器 上 ,按照 链接 方式 执行 下 述 4 条 向 量 指令 (括号 中 给 出 了 相 
应 功能 部 件 的 执行 时 间 ) ,如 果 向 量 寄存 器 和 功能 部 件 之 间 的 数据 传送 需要 1 拍 , 试 求 此 链 
接 流 水 线 的 通过 时 间 是 多 少 拍 ? 如 果 向 量 长 度 为 64, 则 需 多 少 拍 才能 得 到 全 部 结果 ? 


Vo 一 存储 器 (从 存储 器 中 取 数 : 7 拍 ) 
V < 一 Vo 十 W (向 量 加 : 3 拍 ) 
Vs<V,<As ( 按 (4;) 左 移 : 4 拍 ) 
Vs—Vs AVs (向 量 逻 辑 乘 : 2 拍 ) 


【 题 4. 15〗 在 Cray-1 上 ,按照 链接 方式 执行 下 述 5 条 向 量 指令 (括号 中 给 出 了 相应 功 
能 部 件 的 时 间 ) ,如 果 向 量 寄 存 器 和 功能 部 件 之 间 数 据 传输 需要 1 拍 , 试 求 此 链接 流水 线 的 
通过 时 间 是 多 少 拍 ? 如 果 向 量 长 度 为 64, 则 需要 多 少 拍 才能 得 到 全 部 结果 。 


Vo 一 存储 器 (从 存储 器 中 取 数 : 7 拍 ) 
VVot Vi (向 量 加 : 3 拍 ) 
VV,< As ( 按 (A;) 左 移 : 5 拍 ) 
Vs<—Vs AVs (向 量 逻 辑 乘 : 2 拍 ) 
存储 器 一 Vs (向 存储 器 中 存 数 : 7 拍 ) 


【 题 4.16】 某 向 量 处 理 机 有 16 个 向 量 寄存 器 ,其 中 ,Vo 一 Vs 中 分 别 放 有 向 量 A、B、C、 
D\E\F, 向 量 长 度 均 为 8, 向 量 各 元 素 均 为 浮 点 数 ; 处 理 部 件 采用 两 条 单 功 能 流水 线 , 加 法 
功能 部 件 时 间 为 2 拍 , 乘 法 功能 部 件 时 间 为 3 拍 。 采 用 类 似 于 Cray-l 的 链接 技术 , 先 计 算 
(A 十 B) XC, 在 流水 线 不 停 流 的 情况 下 ,接着 计算 (D 十 E)XF。 

(1) 求 此 链接 流水 线 的 通过 时 间 。( 设 寄存 器 入 、 出 各 需 1 拍 ) 

(2) 假如 每 拍 时 间 为 50ns, 完 成 这 些 计算 并 把 结果 存 进 相 应 寄存 器 ,此 处 理 部 件 的 实际 
吞吐 率 为 多 少 MFLOPS? 

【 题 4.17】 在 一 台 向 量 处 理 机 上 实现 A==BXS 计算 ,其 中 ,A 和 B 是 长 度 为 六 一 200 
的 向 量 ,S 是 一 个 标量 。 向 量 寄存 器 长 度 MVL= 64, 各 功能 部 件 的 启动 时 间 为 : 取 数 和 存 
数 部 件 为 12 个 时 钟 周期 .乘法 部 件 为 7 个 时 钟 周期 ,执行 标量 代码 的 开销 Ti 一 15 个 时 
钟 周期 ,对 一 个 向 量 元 素 执 行 一 次 操作 的 时 间 Ts=1 个 时 钟 周期 。 求 计算 A 的 总 执行 
时 间 。 

【 题 4. 18〗 向 量 处 理 机 Cray Y-MP/8 的 机 器 周期 时 间 为 6ns, 一 个 周期 可 以 完成 一 次 
加 和 一 次 乘法 运算 。 另 外 ,8 台 处 理 机 在 最 好 的 情况 下 可 以 同时 运算 而 互 不 干扰 。 计 算 
Cray Y-MP/8 的 峰值 性 能 。 

【 题 4.19】 A、B 两 个 向 量 存放 于 存储 器 ,其 向 量 长 度 为 64。 设 流水 加 法 器 有 4 级 , 流 
水 线 时 钟 周期 为 10ns, 读 出 A、B 向 量 第 一 对 元 素 到 流水 线 始 端 所 需 的 时 钟 周期 数 为 2, 求 
执行 向 量 加 法 指令 ADDV 所 需 的 时 间 。 

【 题 4. 20】 假设 每 种 向 量 功 能 部 件 只 有 一 个 ,而 且 不 考虑 向 量 链接 ,那么 下 面 的 一 组 
向 量 指令 能 分 成 几 个 编队 ? 
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I V1,Rx // 取 向 量 x 

MULTSV ~ V2,R0,V1 // 向 量 x 和 标量 (R0) 相 乘 
LV V3,Ry // 取 向 量 y 

ADDV V4,V2,V3 // 相 加 ,结果 保存 到 V4 中 
SV V4,RY // 存 结果 


【 题 4.21】 在 某 向 量 处 理 机 上 执行 DAXPY 的 向 量 指令 序列 , 即 完 成 Y=aX 十 Y。 其 
中 ,X 和 YY 是 向 量 ,最 初 保存 在 主 存 中 ,a 是 一 个 标量 ,已 存放 在 寄存 器 Fo 中 。 它 们 的 向 量 
指令 如 下 : 


LV V1,Rx // 取 向 量 X 

MULTEV ~ V2,F0,V1 // 向 量 X 和 标量 (F0) 相 乘 
LV V3,Ry // 取 向 量 Y 

ADDV V4, V2,V3 // 完 成 Y=axX+Y 

SV V4,RY // 存 结果 


假设 向 量 寄存 器 的 长 度 MVL=64,Ti 王 15, 各 功能 部 件 的 启动 时 间 为 ; 

(1) 取 数 和 存 数 部 件 为 12 个 时 钟 周期 ; 

(2) 乘法 部 件 为 7 个 时 钟 周期 ; 

(3) 加 法 部 件 为 6 个 时 钟 周期 。 

分 别 对 于 不 采用 向 量 链接 技术 和 采用 链接 技术 的 两 种 情况 , 求 完成 上 述 向 量 操作 的 总 
执行 时 间 。 


题 解 


1. 概念 题 


【 症 4.1】 解释 下 列 名 词 

横向 处 理 方式 一 一 若 向 量 长 度 为 N, 则 横向 处 理 方式 相当 于 执行 N 次 循环 。 若 使 用 流 
水 线 ,在 每 次 循环 中 可 能 出 现 数据 相关 和 功能 转换 ,不 适合 对 向 量 进行 流水 处 理 。 

纵向 处 理 方式 一 一 将 整个 向 量 按 相 同 的 运算 处 理 完毕 之 后 ,再 去 执行 其 他 和 运算。 适合 
对 向 量 进行 流水 处 理 。 

纵横 处 理 方式 一 一 把 长 度 为 N 的 向 量 分 为 若干 组 ,每 组 长 度 为 ,组 内 按 纵向 方式 处 
理 ,依次 处 理 各 组 ,组 数 为 | N/n | ,适合 流水 处 理 。 

向 量 流水 线 链接 一 一 具有 先 写 后 读 相 关 的 两 条 指令 ,在 不 出 现 功能 部 件 冲突 和 信 冲 突 
的 情况 下 ,可 以 把 功能 部 件 链接 起 来 进行 流水 处 理 , 以 达到 加 快 执行 的 目的 。 

Vi 冲突 一 一 指 多 条 向 量 指令 的 源 向 量 或 结果 向 量 要 使 用 相同 的 V;。 

功能 部 件 冲突 一 一 指 多 条 向 量 指令 要 使 用 同一 个 功能 部 件 。 

分 段 开 采 技术 一 一 当 向 量 的 长 度 大 于 向 量 寄存 器 的 长 度 时 ,必须 把 长 向 量 分 成 长 度 固 
定 的 段 ,然后 循环 分 段 处 理 ,每 一 次 循环 只 处 理 一 个 向 量 段 。 

半 性 能 向 量 长 度 一 一 指向 量 处 理 机 的 性 能 为 其 最 大 性 能 R- 的 一 半 时 所 需 的 向 量 
长 度 。 
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向 量 长 度 临 界 值 一 一 指向 量 流水 方式 的 处 理 速度 优 于 标量 串 行 方式 的 处 理 速度 时 所 需 
的 向 量 长 度 的 最 小 值 。 


2. 填空 题 


【 题 4.2】 答 : 存储 器 -存储 器 型 .寄存 器 -寄存 器 型 
【 题 4.3】 答 : 向 量 寄存 器 Vi;、 功 能 部 件 
【 题 4.4】 答 : 向 量 指令 的 处 理 时 间 、 向 量 长 度 为 无 穷 大 时 的 向 量 处 理 机 的 最 大 性 能 、 
半 性 能 向 量 长 度 、 向 量 长 度 临界 值 
【 题 4.5】 答 : 编队 
【 题 4.6】 答 : 同时 、 最 大 值 





【 题 4.10】 答 : B 
4. 问答 题 


【 题 4.11】 答 : 四 横向 处 理 方式 : 若 向 量 长 度 为 N, 则 横向 处 理 方式 相当 于 执行 N 次 
循环 。 若 使 用 流水 线 ,在 每 次 循环 中 可 能 出 现 数据 相关 和 功能 转换 ,不 适合 对 向 量 进行 流水 
处 理 。@@ 纵 向 处 理 方式 : 将 整个 向 量 按 相同 的 运算 处 理 完毕 之 后 ,再 去 执行 其 他 运算 。 适 
合 对 向 量 进行 流水 处 理 , 向 量 运算 指令 的 源 / 目 向 量 都 放 在 存储 器 内 ,使 得 流水 线 运算 部 件 
的 输入 、 输 出 端 直接 与 存储 器 相连 ,构成 M 一 M 型 的 运算 流水 线 。 回 纵横 处 理 方式 : 把 长 
度 为 N 的 向 量 分 为 若干 组 ,每 组 长 度 为 n, 组 内 按 纵向 方式 处 理 , 依 次 处 理 各 组 ,组 数 为 
[N/nj ,适合 流水 处 理 。 可 设 长 度 为 n 的 向 量 寄 存 器 ,使 每 组 向 量 运算 的 源 / 目 向 量 都 在 向 
量 寄 存 器 中 ,流水 线 的 运算 部 件 输入 、 输 出 端 与 向 量 寄 存 器 相连 ,构成 R-R 型 运算 流水 线 。 

【 题 4.12】 答 : 可 采用 多 种 方法 : 

(1) 设置 多 个 功能 部 件 ,使 它们 并 行 工作 ; 

(2) 采用 链接 技术 ,加 快 一 串 向 量 指令 的 执行 ; 

(3) 采用 循环 开采 技术 ,加 快 循环 的 处 理 ; 

(4) 采用 多 处 理 机 系统 ,进一步 提高 性 能 。 

【 题 4.13】 答 : 

(1) 向 量 指令 之 间 要 求 无 Vi 冲突 和 无 功能 部 件 使 用 冲突 。 

(2) 只 有 在 前 一 条 指令 的 第 一 个 结果 元 素 送 入 结果 向 量 寄 存 器 的 那 一 个 时 钟 周期 才 可 
以 进行 链接 。 如 果 错 过 这 个 时 刻 ,就 无 法 进行 链接 了 。 

(3) 当 一 条 向 量 指令 的 两 个 源 操 作 数 分 别 来 自前 面 紧邻 的 两 条 指令 的 结果 时 ,要 求 这 
两 条 指令 产生 运算 结果 的 时 间 必 须 相 等 , 即 要 求 有 关 功 能 部 件 的 通过 时 间 相 等 。 

链接 执行 的 向 量 指令 的 向 量 长 度 必须 相等 ,否则 无 法 进行 链接 。 
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5. 应 用 题 


【是 4. 14】 

解 : 通过 时 间 就 是 每 条 向 量 指令 的 第 一 个 操作 数 执行 完毕 需要 的 时 间 , 也 就 是 各 功能 
流水 线 由 空 到 满 的 时 间 , 具 体 过 程 如 图 4. 1 所 示 。 要 得 到 全 部 结果 ,在 流水 线 充满 之 后 ,向 
量 中 后 继 操 作 数 继续 以 流水 方式 执行 ,直到 整 组 向 量 执行 完毕 。 









































L- 向 量 加 \ 左 移 由 


4.1 具体 过 程 

















Tat 一 (7 十 1) 十 (1 十 3 十 1D) 十 (1 十 4 十 1) 十 (1 十 2 十 1) = 23( 拍 ) 
Ta# = Tax 十 (64 一 1) 一 23 十 63 一 86( 拍 ) 

【 题 4. 15】 

解 : 通过 时 间 就 是 每 条 向 量 指令 的 第 一 个 操作 数 执行 完毕 需要 的 时 间 ,也 就 是 各 功能 
流水 线 由 空 到 满 的 时 间 。 要 得 到 全 部 结果 ,在 流水 线 充满 之 后 ,向 量 中 后 继 操 作 数 继续 以 流 
水 方式 执行 ,直到 整 组 向 量 执行 完毕 。 

通过 时 间 : 

TT 二 (7 十 了 十 (十 3 十 了 DD) 十 (1 十 5 十 了 ) 十 (1 十 2 十 了 ) 十 (1 十 7 十 1) = 33 
总 时 间 Ts = Ti 十 (64 一 1) = 96 

【 题 4. 16】 

解 : (1) 我 们 在 这 里 假设 A 十 B 的 中 间 结 果 放 在 Vs 中 , (A 十 B) XC 的 最 后 结果 放 在 
V; 中 ,D 十 EE 的 中 间 结 果 放 在 Vs 中 ,(D 十 E) XF 的 最 后 结果 放 在 V。 中 。 具 体 实现 参考 如 
图 4. 2 所 示 。 







































































VF 
图 4.2 链接 流水 线 


通过 时 间 应 该 为 前 者 ((A 十 B) XO) 通过 的 时 间 : 
Tait 一 (1 十 2 十 1) 十 人 十 3 十 D = 9( 拍 ) 
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(2) 在 做 完 (A 十 B) XC 之 后 ,做 (C 十 D) XE 就 不 需要 通过 时 间 了 。 
Ve—A+B 
V 一 VeXC 
Vs—D+E 
V。 一 VsXF 
T= Tiay 十 (8 一 1) 十 8 二 24( 拍 ) = 1200(ns) 











证 = 这 = 26. 67MFLOPS 
【 题 4.17】 
解 : 假设 向 量 A 和 B 存放 在 向 量 寄存 器 Ra 和 Rb 中 ,标量 S 存放 在 标量 寄存 器 RO 
中 ,由 下 面 3 条 指令 完成 计算 : 


LV V1,Rb 
MULTSV ~ V2,R0,V1 
SV V2,Ra 


这 3 条 指令 之 间 存 在 相关 , 需 分 为 3 个 编队 m==3。 向 量 需要 分 为 [200/64 |=4 组 进行 
计算 。 

由 题目 得 : Ton 二 12 十 12 十 7 二 31; Tiowp 二 15 

T=4X(Tiww 十 Twan) 十 3X200X1= 4X(15 十 31) 十 3X200X1=784 个 时 钟 周期 

【 题 4. 18】 

解 : Cray Y-MP/8 的 峰值 性 能 为 : 


R 《二 1)X8 16 
站 T X10 6X1o X10 





























~ 2667MFLOPS 





【 题 4.19】 
解 : 由 题 意 知 ,n= 二 64,1 二 4,s 二 2,T, 二 10ns 
Tu = (* 十 /十 2 一 1)T. = (2 十 4 十 64 一 1)10ns = 690ns 

【 题 4. 20】 

解 : 第 一 条 指令 LV 为 第 一 个 编队 。MULTSYV 指令 因为 与 第 一 条 LV 指令 相关 ,所 以 
它们 不 能 编 在 同一 个 编队 中 。 但 MULTSYV 指令 和 第 二 条 LV 指令 之 间 既 不 存在 功能 部 件 
冲突 ,也 不 存在 数据 相关 , 故 可 以 把 它们 一 起 编 到 第 二 个 编队 中 。ADDY 指令 与 第 二 条 LV 
指令 数据 相关 ,SV 指令 又 与 ADDYV 指令 数据 相关 ,所 以 把 ADDV 编 为 第 3 个 编队 ,把 SV 
指令 编 为 第 4 个 编队 。 即 : 

(1) LVV1,Rx 

(2) MULTSV V2,Ro,V1 LV V3,Ry 

(3) ADDV V4,V2,V3 

(4) SV V4,Ry 

【 题 4. 21】 

解 : 当 不 采用 向 量 链 接 技 术 时 ,可 把 上 述 5 条 向 量 指令 分 成 以 下 4 个 编队 : 

(DLV V1,Rx 

(2) MULTFYV V2,F0,V1 LV V3,Ry 
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(3) ADDV V4,V2,V3 
(4) SV V4,Ry 

Tn 一 12 十 12 十 6 十 12,m 一 4 
根据 公式 可 知 ,对 个 向 量 元 素 进 行 DAXPY 表达 式 计算 所 需 的 时 钟 周 期 个 数 为 : 


T,= [wr | pd 0 RE A 








=| 到 |XQ5+12 十 12 二 6 十 12) 十 和 一 | 癌 |X57 十 徊 


如 果 采 用 向 量 链接 技术 ,那么 上 述 5 条 向 量 指令 的 编队 结果 如 下 (mm 二 3): 

(DLV V1,Rx MULTFV V2,F0,V1 

(2) LV V3,Ry ADDV V4,V2,V3 

(3) SV V4,Ry 

其 中 ,前 两 个 编队 中 各 自 的 两 条 向 量 指 令 都 可 以 链接 执行 。 根 据 链接 的 含义 可 知 , 第 一 
个 编队 的 启动 时 间 为 12 十 7 二 19 个 时 钟 周期 ,第 二 个 编队 的 启动 时 间 为 12 十 6 二 18 个 时 钟 
周期 ; 第 3 个 编队 启动 时 间 为 12 个 时 钟 周期 。 所 以 采用 链接 技术 后 ,对 n 个 向 量 元 素 进 行 
DAXPY 表达 式 计算 所 需 的 时 钟 周期 总 数 为 : 


i n 本 
T,=| 证 |X (Too 十 Too) + mn 











[至 |x as 二 19 十 18 十 12) 十 3 一 | 癌 |x64 十 3n 


第 5 章 指令 级 并 行 性 及 其 开发 
一 一 硬件 方法 


5.1 基本 要 求 与 难点 


5.1.1 基本 要 求 


(1) 掌握 有 关 指 令 级 并 行 的 基本 概念 。 

(2) 理解 指令 的 静态 调度 和 动态 调度 的 概念 ,掌握 动态 调度 的 基本 思想 。 理 解 精确 异 
常 和 不 精确 异常 的 不 同 。 

(3) 掌握 记分 牌 动 态 调度 方法 的 基本 思想 。 

(4) 掌握 Tomasulo 算法 的 基本 思想 和 算法 。 能 画 出 在 给 定 的 情况 下 状态 表 的 内 容 。 

(5) 理解 和 掌握 动态 分 支 预测 技术 ,特别 是 基于 硬件 的 前 瞻 执 行 。 掌 握 采 用 前 瞻 执 行 
机 制 后 指令 的 执行 步骤 发 生 了 哪些 变化 。 

(6) 理解 超标 量 、 超 长 指令 字 和 超 流水 这 3 种 机 制 的 原理 及 特点 。 

(7) 了 解 基于 静态 调度 的 多 流出 技术 和 基于 动态 调度 的 多 流出 技术 。 

(8) 了 解 多 流出 处 理 器 受到 的 限制 。 


5.1.2 难点 


(1) 记分 牌 方法 。 

(2) Tomasulo 算法 。 

(3) 基于 硬件 的 前 瞻 执 行 。 

(4) 超标 量 、 超 长 指令 字 和 超 流 水 。 


5.2 知识 要 点 


指令 级 并 行 (ILP) 是 指 指令 之 间 存 在 的 一 种 并 行 性 ,利用 它 , 计 算 机 可 以 并 行 执行 两 条 
或 两 条 以 上 的 指令 。 开 发 ILP 的 途径 有 两 种 ,一 种 是 资源 重复 ,重复 设置 多 个 处 理 部 件 , 让 
它们 同时 执行 多 条 指令 ; 另 一 种 是 采用 流水 线 技术 ,使 指令 重奏 并 行 执行 。 
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5.2.1 指令 级 并 行 的 概念 


开发 ILP 的 方法 可 以 分 为 两 大 类 : 主要 基于 硬件 的 动态 开发 方法 以 及 基于 软件 的 静态 
开发 方法 。 两 者 若 紧 密 结合 , 则 效果 更 好 。 

流水 线 处 理 机 的 实际 CPI 为 : 

CPIxxk 线 一 CPlaa 十 停顿 二 gw 突 十 停 顿 数 据 冲突 十 停 顿 控制 站 突 

其 中 ,理想 CPI 是 衡量 流水 线 最 高 性 能 的 一 个 指标 。 通 过 减少 该 式 右边 的 各 项 ,我 们 就 能 
减少 总 的 CPI, 从 而 提高 IPC(Instructions Per Cycle) 。 

如 果 一 串 连 续 的 代码 除了 入 口 和 出 口 以 外 ,没有 其 他 的 分 支 指令 和 转 信 点, 则 称 之 为 一 
个 基本 程序 块 。 在 基本 程序 块 中 能 开发 出 的 并 行 性 是 很 有 限 的 ,为 了 明显 地 提高 性 能 ,必须 
跨越 多 个 基本 块 开发 ILP。 

最 简单 和 最 常用 的 开发 ILP 的 方法 ,是 开发 循环 的 不 同 迭 代 之 间 存 在 的 并 行 性 。 这 种 
并 行 性 称 为 循环 级 并 行 性 。 在 第 6 章 , 将 讨论 如 何 把 这 种 循环 级 并 行 性 转换 为 ILP。 


5.2.2 相关 与 指令 级 并 行 


如 果 两 条 指令 相关 , 则 它们 就 不 能 并 行 执 行 , 或 只 能 部 分 重生 执行 。 

流水 线 冲突 是 指 对 于 具体 的 流水 线 来 说 ,由 于 相关 的 存在 ,使 得 指令 流 中 的 下 一 条 指令 
不 能 在 指定 的 时 钟 周期 执行 。 流 水 线 冲突 有 3 种 类 型 : 结构 冲突 ,数据 冲突 ,控制 冲突 。 结 
构 冲 突 是 因 硬件 资源 冲突 造成 的 ,数据 冲突 是 由 数据 相关 和 名 相关 造成 的 ,控制 冲突 是 由 控 
制 相关 造成 的 。 

相关 是 程序 固有 的 一 种 属性 , 它 反 映 了 程序 中 指令 之 间 的 相互 依赖 关系 。 而 具体 的 一 
次 相关 是 否 会 导致 实际 冲突 的 发 生 以 及 该 冲突 会 带 来 多 长 的 停顿 , 则 是 流水 线 的 属性 。 

可 以 从 以 下 两 个 方面 来 解决 相关 问题 。 

(1) 保持 相关 ,但 避免 发 生 冲 突 。 

(2) 进行 代码 变换 ,消除 相关 。 

指令 调度 是 一 种 用 来 避免 冲突 的 主要 方法 , 它 并 不 改变 相关 。 

程序 顺序 是 指 : 由 原来 程序 确定 的 在 完全 串 行 方式 下 指令 的 执行 顺序 。 并 不 需要 在 所 
有 存在 相关 的 地 方 都 保持 程序 顺序 。 后 面 要 介绍 的 各 种 软 硬 件 技术 的 目标 是 尽 可 能 地 开发 
并 行 性 ,只 有 在 可 能 会 导致 错误 的 情况 下 , 才 保持 程序 顺序 。 

对 于 提高 性 能 来 说 ,控制 相关 本 身 并 不 是 一 个 主要 的 限制 。 它 并 不 是 一 个 必须 严格 保 
持 的 关键 属性 。 为 了 保证 程序 执行 的 正确 性 ,必须 保持 的 最 关键 的 两 个 属性 是 : 数据 流 和 
异常 行为 。 

保持 异常 行为 是 指 : 无 论 怎么 改变 指令 的 执行 顺序 ,都 不 能 改变 程序 中 异常 的 发 生 情 
况 。 即 原来 程序 中 是 怎么 发 生 的 ,改变 执行 顺序 后 还 是 怎么 发 生 。 这 个 条 件 经 常 被 弱化 为 : 
指令 执行 顺序 的 改变 不 能 导致 程序 中 发 生 新 的 异常 。 

数据 流 是 指数 据 值 从 其 产生 者 指令 到 其 消费 者 指令 的 实际 流动 。 分 支 指令 使 得 数据 流 
具有 动态 性 ,因为 一 条 指令 有 可 能 数据 相关 于 多 条 先前 的 指令 。 分 支 指令 的 执行 结果 决定 
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了 哪 条 指令 真正 是 所 需 数据 的 产生 者 。 
后 面 将 讨论 的 前 瞻 执 行 不 仅 能 解决 异常 问题 ,而且 能 够 使 我 们 在 保持 数据 流 的 情况 下 ， 
减少 控制 相关 对 开发 ILP 的 影响 。 


5.2.3 指令 的 动态 调度 


静态 调度 的 流水 线 依靠 编译 器 对 代码 进行 静态 调度 ,以 减少 相关 和 冲突 。 之 所 以 称 之 
为 静态 调度 ,是 因为 它 不 是 在 程序 执行 的 过 程 中 而 是 在 编译 期 间 进 行 代 码 调度 和 优化 的 。 
静态 调度 通过 把 相关 的 指令 拉 开 “距离 ”来 减少 可 能 产生 的 停顿 。 

动态 调度 能 在 保持 数据 流 和 异常 行为 的 情况 下 ,通过 硬件 对 指令 执行 顺序 进行 重新 安 
排 ,减少 数据 相关 导致 的 停顿 。 动 态 调度 有 许多 优点 : 四 能 够 处 理 一 些 编译 时 情况 不 明 的 
相关 (比如 涉及 存储 器 访问 的 相关 ) ,并 简化 了 编译 器 ; 回 能够 使 本 来 是 面向 某 一 流水 线 优 
化 编译 的 代码 在 其 他 动态 调度 的 流水 线 上 也 能 高 效 地 执行 。 当 然 ,动态 调度 的 这 些 优 点 是 
以 硬件 复杂 性 的 显著 增加 为 代价 的 。 


1. 动态 调度 的 基本 思想 


第 3 章 中 讨论 的 5 段 流水 线 有 一 个 很 大 的 局 限 性 , 即 其 指令 是 按 序 流出 和 按 序 执行 的 。 
如 果 相 近 的 指令 存在 相关 ,就 很 可 能 会 导致 冲突 ,引起 停顿 。 这 样 其 后 面 所 有 的 指令 也 都 停 
止 了 前 进 。 

为 了 解决 这 个 问题 ,我们 将 前 述 5 段 流水 线 的 译 码 (ID) 段 细 分 为 以 下 两 个 段 。 

(1) 流出 : 指令 译 码 ,并 检查 是 否 存在 结构 冲突 。 如 果 不 存在 结构 冲突 ,就 将 指令 
流出 。 

(2) 读 操作 数 : 等 待 数据 冲突 消失 (如 果 有 ) ,然后 读 操作 数 , 并 立即 开始 执行 。 

可 以 看 出 ,这 样 修改 后 指令 的 流出 仍然 是 按 序 流出 。 但 是 ,它们 在 读 操作 数 段 可 能 停顿 
或 互相 跨越 ,因而 进入 执行 段 时 就 可 能 已 经 是 乱 序 的 了 , 即 乱 序 执行 。 指 令 的 完成 也 是 乱 序 
完成 的 。 

指令 乱 序 完成 大 大 增加 了 异常 处 理 的 复杂 度 。 动 态 调度 的 处 理 机 是 这 样 来 保持 正确 的 
异常 行为 的 : 对 于 一 条 会 产生 异常 的 指令 来 说 ,只 有 当 处 理 机 确切 地 知道 该 指令 将 被 执行 
时 , 才 允 许 它 产生 异常 。 

即使 保持 了 正确 的 异常 行为 ,动态 调度 处 理 机 仍 可 能 发 生 不 精确 异常 。 所 谓 不 精确 异 
常 是 指 : 当 执 行 指令 i 导致 发 生 异 常 时 ,处 理 机 的 现场 (状态 ) 与 严格 按 程序 顺序 执行 时 指 
令 i 的 现场 不 同 。 反之, 如果 发 生 异 常 时 ,处 理 机 的 现场 跟 严 格 按 程序 顺序 执行 时 指令 i 的 
现场 相同 ,就 称 为 精确 异常 。 不 精确 异常 使 得 在 异常 处 理 后 难以 接着 继续 执行 程序 。 

之 所 以 会 发 生 不 精确 的 异常 ,是 因为 当 发 生 异 常 ( 设 为 指令 让 时 : 四 流水 线 可 能 已 经 执 
行 完 按 程序 顺序 是 位 于 指令 i 之 后 的 指令 ; @ 流 水 线 可 能 还 没完 成 按 程序 顺序 是 指令 i 之 
前 的 指令 。 

记分 牌 方法 和 Tomasulo 算法 是 两 种 比较 典型 的 动态 调度 算法 。 下 面 先 简 单 介绍 记分 
牌 方法 ,然后 详细 论述 Tomasulo 算法 。 许 多 现代 处 理 机 都 采用 了 Tomasulo 算法 或 其 
变形 。 
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2. 记分 牌 动态 调度 方法 


1) 基本 思想 

记分 牌 方法 这 一 名 称 起 源 于 最 早 采用 此 功能 的 CDC 6600 计算 机 中 的 记分 牌 。 该 机 器 
用 一 个 称 为 记分 牌 的 硬件 实现 了 对 指令 的 动态 调度 。 它 把 前 述 简单 流水 线 中 的 译 码 段 ID 
分 解 成 了 两 个 段 : 流出 和 读 操作 数 , 以 避免 当 某 条 指令 在 ID 段 被 停顿 时 挡住 其 后 面 无 关 指 
令 的 流动 。 

记分 牌 的 目标 是 在 没有 结构 冲突 时 , 尽 可 能 早 地 执行 没有 数据 冲突 的 指令 ,实现 每 个 时 
钟 周期 执行 一 条 指令 。 如 果 某 条 指令 被 暂停 ,而 后 面 的 指令 与 流水 线 中 正在 执行 或 被 暂停 
的 指令 都 不 相关 ,那么 这 些 指令 可 以 跨越 它 ,继续 流出 和 执行 下 去 。 记 分 牌 全 面 负 责 和 管理 
这 些 指 令 的 流出 和 执行 ,当然 也 包括 检测 所 有 的 冲突 。 

每 条 指令 都 要 经 过 记分 牌 。 指 令 流 出 时 ,记分 牌 在 表 中 记录 相关 的 信息 ,并 决定 什么 时 
候 该 指令 可 以 读 出 操作 数 和 开始 执行 。 如 果 确 定 该 指令 不 能 马上 执行 ,记分 牌 在 后 面 就 会 
监视 硬件 中 信息 的 每 一 个 变化 ,一 旦 所 需 的 操作 数 就 绪 , 就 立即 启动 该 指令 的 执行 。 

在 采用 了 记分 牌 的 流水 线 中 。 每 条 指令 的 执行 过 程 分 为 4 段 : 流出 、 读 操作 数 、 执 行 和 
写 结果 。 由 于 我 们 主要 考虑 浮 点 操作 ,运算 在 浮 点 寄存 器 之 间 进 行 ,因此 不 涉及 存储 器 访 
问 段 。 

(1) 流出 

如 果 当 前 流出 指令 所 需 的 功能 部 件 空闲 ,并 且 所 有 其 他 正在 执行 的 指令 的 目的 寄存 器 
与 该 指令 的 不 同 , 记 分 牌 就 向 功能 部 件 流出 该 指令 ,并 修改 记分 牌 内 部 的 记录 表 。 如 果 存 在 
结构 相关 或 WAW 冲突 ,该 指令 就 不 流出 。 在 这 里 就 解决 了 WAW 冲突 。 

(2) 读 操作 数 

记分 牌 监测 源 操作 数 的 可 用 性 ,一 旦 数据 可 用 , 它 就 通知 功能 部 件 从 寄存 器 中 读 出 源 操 
作 数 并 开始 执行 。 这 一 步 动态 地 解决 了 RAW 冲突 ,并 可 能 导致 指令 乱 序 执行 。 

(3) 执行 

取 到 操作 数 后 ,功能 部 件 开始 执行 。 当 结果 产生 后 ,就 通知 记分 牌 它 已 经 完成 执行 。 这 
一 步 相 当 于 前 述 标准 流水 线 中 的 执行 段 (EX) 。 在 浮 点 流水 线 中 ,这 一 段 可 能 要 占用 多 个 时 
钟 周期 。 

(4) 写 结果 

记分 牌 一 旦 知道 执行 部 件 完 成 了 执行 ,就 检测 是 否 存在 WAR 冲突 。 如 果 不 存在 ,或 者 
已 有 的 WAR 冲突 已 消失 ,记分 牌 就 通知 功能 部 件 把 结果 写 入 目的 寄存 器 ,并 释放 该 指令 使 
用 的 所 有 资源 。 这 一 步 对 应 于 前 述 标准 流水 线 中 的 写 回 段 (WB) 。 

记分 牌 中 记录 的 信息 由 以 下 三 部 分 构成 。 

Q@ 指令 状态 表 : 记录 正在 执行 的 各 条 指令 已 经 进入 到 了 哪 一 段 。 

@ 功能 部 件 状态 表 : 记录 各 个 功能 部 件 的 状态 。 每 个 功能 部 件 有 一 项 ,每 一 项 由 9 个 
字段 组 成 。 

@ 结果 寄存 器 状态 表 Result: 每 个 寄存 器 在 该 表 中 有 一 项 ,用 于 指出 哪个 功能 部 件 
(编号 ) 将 把 结果 写 人 该 寄存 器 。 

结果 寄存 器 状态 表 中 的 字段 与 每 个 寄存 器 一 一 对 应 , 它 记 录 了 当前 机 器 状态 下 将 把 结 
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果 写 人 该 寄存 器 的 功能 部 件 的 名 称 。 
2) 具体 算法 ( 略 ) 


3. Tomasulo 算法 


1) 基本 思想 

Tomasulo 算法 是 由 Robert Tomasulo 发 明 的 ,因而 以 他 的 名 字 命 名 。 首 先 采 用 这 种 方 
法 的 是 IBM 360/91 机 器 中 的 浮 点 部 件 。 尽 管 许多 现代 处 理 机 采用 了 这 种 方法 的 各 种 变 
形 ,但 其 核心 思想 都 是 : 四 记录 和 检测 指令 相关 ,操作 数 一 旦 就 绪 就 立即 执行 ,把 发 生 RAW 
冲突 的 可 能 性 减 小 到 最 少 ; @ 通 过 寄存 器 换 名 来 消除 WAR 冲突 和 WAW 冲突 。 

寄存 器 换 名 可 以 消除 WAR 冲突 和 WAW 冲突 。 

下 面 在 MIPS 指令 集 的 情况 下 来 介绍 Tomasulo 算法 ,我 们 重点 关心 的 是 浮 点 部 件 以 
及 load/store 部 件 。 

在 Tomasulo 算法 中 ,寄存 器 换 名 是 通过 保留 站 和 流出 逻辑 来 共同 完成 的 。 当 指令 流 
出 时 ,如 果 其 操作 数 还 没有 计算 出 来 , 则 将 该 指令 中 相应 的 寄存 器 号 换 名 为 将 产生 这 个 操作 
数 的 保留 站 的 标识 。 所 以 ,指令 流出 到 保留 站 后 ,其 操作 数 寄 存 器 号 或 者 换 成 了 数据 本 身 
( 若 已 就 绪 ) ,或 者 换 成 了 保留 站 的 标识 ,不 再 与 寄存 器 有 关系 。 这 样 后 面 指令 对 该 寄存 器 的 
写 人 操作 就 不 可 能 产生 WAR 冲突 了 。 

在 详细 介绍 Tomasulo 算法 之 前 , 先 来 看 一 下 指令 执行 的 步 又。 这 里 只 需要 以 下 三 步 。 

(1) 流出 

从 指令 队列 的 头 部 取 一 条 指令 。 如 果 该 指令 的 操作 所 要 求 的 保留 站 有 空闲 的 ,就 把 该 
指令 送 到 该 保留 站 ( 设 为 rn 。 并 且 , 如 果 其 操作 数 在 寄存 器 中 已 经 就 绪 , 就 将 这 些 操 作 数 送 
入 保留 站 r。 如 果 其 操作 数 还 没有 就 绪 ,就 把 将 产生 该 操作 数 的 保留 站 的 标识 送 入 保留 站 
r。 这 样 ,一 旦 被 记录 的 保留 站 完成 计算 , 它 将 直接 把 数据 送 给 保留 站 r。 这 一 步 实 际 上 是 进 
行 了 寄存 器 换 名 ( 换 成 保留 站 的 标识 ) 和 对 操作 数 进行 缓冲 ,消除 了 WAR 冲突。 另外 ,还 要 
完成 对 目的 寄存 器 的 预约 工作 ,将 其 设置 为 接收 保留 站 r 的 结果 。 这 实际 上 相当 于 提前 完 
成 了 写 操作 (预约 )。 由 于 指令 是 按 程序 顺序 流出 的 , 当 出 现 多 条 指令 写 同 一 个 结果 寄存 器 
时 ,最 后 留 下 的 预约 结果 肯定 是 最 后 一 条 指令 的 ,就 是 说 消除 了 WAW 冲突 。 

当然 ,如 果 没 有 空闲 的 保留 站 ,指令 就 不 能 流出 。 这 是 发 生 了 结构 冲突 。 

(2) 执行 

如 果 某 个 操作 数 还 没有 被 计算 出 来 ,本 保留 站 将 监视 CDB, 等 待 所 需 的 计算 结果 。 一 
且 那 个 结果 产生 , 它 将 被 放 到 CDB 上 ,本 保留 站 将 立即 获得 该 数据 。 当 两 个 操作 数 都 就 绪 
后 ,本 保留 站 就 用 相应 的 功能 部 件 开始 执行 指令 规定 的 操作 。 这 里 是 等 到 所 有 操作 数 都 备 
齐 后 才 开 始 执行 指令 。 也 就 是 说 是 靠 推迟 执行 的 方法 解决 RAW 冲突 。 由 于 结果 数据 是 从 
其 产生 的 部 件 (保留 站 ) 直 接送 到 需要 它 的 地 方 , 所 以 这 已 经 是 最 大 限度 地 减少 了 RAW 冲 
突 的 影响 。 

load 和 store 指令 的 执行 需要 两 个 步骤 : 计算 有 效 地 址 (要 等 到 基地 址 寄存 器 就 绪 ) 和 
把 有 效 地 址 放 入 load 或 store 缓冲 器 。load 缓冲 器 中 的 load 指令 的 执行 条 件 是 存储 器 部 
件 就 绪 。 而 store 缓冲 器 中 的 store 指令 在 执行 前 必须 等 到 要 存 人 存储 器 的 数据 到 达 。 通 
过 按 顺 序 进 行 有 效 地 址 计算 来 保证 程序 顺序 ,这 有 助 于 避免 访问 存储 器 的 冲突 。 
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(3) 写 结果 

功能 部 件 计算 完毕 后 ,就 将 计算 结果 放 到 CDB 上 ,所 有 等 待 该 计算 结果 的 寄存 器 和 保 
留 站 (包括 store 缓冲 器 ) 都 同时 从 CDB 上 获得 所 需要 的 数据 。store 指令 在 这 一 步 完 成 对 
存储 器 的 写 入 : 当 写 入 地 址 和 数据 都 备 齐 时 ,将 它们 送 给 存储 器 部 件 ,store 指令 完成 。 

保留 站 、 寄 存 器 组 和 load/store 缓冲 器 都 包含 附加 标志 信息 ,用 于 检测 和 消除 冲突 。 不 
同 部 件 的 附加 信息 略 有 不 同 。 标 识字 段 实际 上 就 是 用 于 换 名 的 一 组 虚拟 寄存 器 的 名 称 
(编号 ) 。 

与 在 Tomasulo 算法 之 前 提出 的 其 他 更 简单 的 动态 调度 方法 相 比 ,Tomasulo 算法 具有 
以 下 两 个 主要 的 优点 。 

Q@ 冲突 检测 逻辑 和 指令 执行 控制 是 分 布 的 (通过 保留 站 和 CDB 实现 ) 。 

每 个 功能 部 件 的 保留 站 中 的 信息 决定 了 什么 时 候 指 令 可 以 在 该 功能 部 件 开始 执行 。 如 
果 有 多 条 指令 已 经 获得 了 一 个 操作 数 ,并 同时 在 等 待 同 一 运算 结果 (作为 另 一 个 操作 数 ) , 那 
么 这 个 结果 一 产生 ,就 可 以 通过 CDB 同时 播送 给 所 有 这 些 指 令 ,使 它们 可 以 同时 执行 。 

@ 消除 了 WAW 冲突 和 WAR 冲突 导致 的 停顿 。 

这 是 通过 使 用 保留 站 进行 寄存 器 换 名 ,并 且 在 操作 数 一 旦 就 绪 就 将 之 放 和 人 保留 站 来 实 
现 的 。 

2) 具体 算法 

下 面 给 出 Tomasulo 算法 中 指令 进入 各 阶段 的 条 件 以 及 在 各 阶段 进行 的 操作 和 状态 表 
内 容 修 改 。 其 中 ,各 符号 的 意义 如 下 。 

r: 分 配给 当前 指令 的 保留 站 或 者 缓冲 器 单元 (编号 ); 

rd: 目的 寄存 器 编号 ; 

rs\rt: 操作 数 寄存 器 编号 ; 

imm: 按 符号 位 扩展 后 的 立即 数 ; 

RS: 保留 站 ; 

result: 浮 点 部 件 或 load 缓冲 器 返回 的 结果 ; 

Qi: 寄存 器 状态 表 ; 

Regs[]: 寄存 器 组 ; 

Op: 当前 指令 的 操作 码 。 

对 于 load 指令 来 说 ,rt 是 保存 所 取 数 据 的 寄存 器 号 ; 对 于 store 指令 来 说 ,rt 是 保存 所 
要 存储 的 数据 的 寄存 器 号 。 与 rs 对 应 的 保留 站 字段 是 Vj.Qj; 与 rt 对 应 的 保留 站 字段 是 
VEk,Qk, 

(1) 指令 流出 

@ 浮 点 运算 指令 

进入 条 件 : 有 空闲 保留 站 ( 设 为 r) 

操作 和 状态 表 内 容 修改 : 

if (Qi[rs] 和 0) // 检 测 第 一 操作 数 是 否 就 绪 
{RS[r].Qjij < Qi[rs] // 第 一 操作 数 没有 就 绪 , 进行 寄存 器 换 名 , 即 把 将 产生 该 操作 数 的 保 
// 留 站 的 编号 放 入 当前 保留 站 的 0j。 该 编号 是 一 个 大 于 0 的 整数 


else {RS[r].Vj * Regs[rs]; // 第 一 操作 数 就 绪 。 把 寄存 器 rs 中 的 操作 数 取 到 当前 保留 站 的 太 
RS[r].0j < 0}; // 置 0j 为 0, 表 示 当 前 保留 站 的 号 中 的 操作 数 就 绪 
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证 (Qi[rt] 0) // 检 测 第 二 操作 数 是 否 就 绪 
{RS[r].Qk <- Qi[rt]}  ”// 第 二 操作 数 没有 就 绪 , 进 行 寄存 器 换 名 , 即 把 将 产生 该 操作 数 的 保 
// 留 站 的 编号 放 入 当前 保留 站 的 Qk。 该 编号 是 一 个 大 于 0 的 整数 
else {RS[r]. Vk<- Regs[rt]; // 第 二 操作 数 就 绪 。 把 寄存 器 rt 中 的 操作 数 取 到 当前 保留 站 的 呈 


RS[r].Qk<— 0}; // 置 Qk 为 0, 表 示 当 前 保留 站 的 Wk 中 的 操作 数 就 绪 
RS[r].Busy < yes; // 置 当前 保留 站 为 " 忙 " 
RS[r].0p < Op; // 设 置 操作 码 
Qilrd] rr; // 把 当前 保留 站 的 编号 r 放 入 rd 所 对 应 的 寄存 器 状态 表 项 ,， 
// 以 便 rd 将 来 接收 结果 


@ load 和 store 指令 
进入 条 件 : 缓冲 器 有 空闲 单元 ( 设 为 ) 





操作 和 状态 表 内 容 修 改 : 
证 (Qi[rs] 天 0) // 检 测 第 一 操作 数 是 否 就 绪 。 
{RS[r].Qj 一 Qi[rs]} // 第 一 操作 数 没有 就 绪 , 进行 寄存 器 换 名 , 即 把 将 产生 该 操作 数 的 保 
// 留 站 的 编号 存 入 当前 缓冲 器 单元 的 9j 
else 
{RS[r],vj * Regs[rs]; // 第 一 操作 数 就 绪 , 把 寄存 器 rs 中 的 操作 数 取 到 当前 缓冲 器 单元 
// 的 全 
RS[r].0j 一 0}; // 置 0j 为 0, 表 示 当 前 缓冲 器 单元 的 Wj 中 的 操作 数 就 绪 
RS[r].Busy < yes; // 置 当前 缓冲 器 单元 为 " 忙 " 
RS[r].A < Imm; // 把 按 符 号 位 扩展 后 的 偏 移 量 放 入 当前 缓冲 器 单元 的 A 
对 于 load 指令 : 
Qi[rt] < r; // 把 当前 缓冲 器 单元 的 编号 r 放 入 load 指令 的 目的 寄存 器 rt 所 对 应 
// 的 寄存 器 状态 表 项 ,以 便 rt 将 来 接收 所 取 的 数据 
对 于 store 指令 : 
证 (Qi[rt] 天 0) // 检 测 要 存储 的 数据 是 否 就 绪 
{RS[r].Qk 一 Qi[rt]} // 该 数据 尚未 就 绪 , 进行 寄存 器 换 名 , 即 把 将 产生 该 数据 的 保留 站 的 
// 编 号 放 人 当前 缓冲 器 单元 的 Qk 
else 
{RS[r]. Vk < Regs[rt]; // 该 数据 就 绪 ,把 它 从 寄存 器 rt 取 到 store 缓冲 器 单元 的 于 
RS[r].Qk <— 0}; // 置 Qk 为 0, 表 示 当 前 缓冲 器 单元 的 Wk 中 的 数据 就 绪 
(2) 执行 
Q@ 浮 点 操作 指令 


进入 条 件 : (RS[r].0j= 0) 且 (RS[r].ok= 0); // 两 个 源 操作 数 就 绪 
操作 和 状态 表 内 容 修改 : 进行 计算 ,产生 结果 


@ load/store 指令 
进入 条 件 : (RS[r].0j = 0) 且 成 为 load/store 缓 冲 队列 的 头 部 








操作 和 状态 表 内 容 修 改 : 

RS[r].A <— RS[r].Vj + RS[r].A; // 计 算 有 效 地 址 
对 于 load 指令 ,在 完成 有 效 地 址 计算 后 ,还 要 进行 : 

从 Mem[RS[r].A] 读 取 数 据 ; // 从 存储 器 中 读 取 数 据 
(3) 写 结果 


@ 浮 点 运算 指令 和 load 指令 
进入 条 件 : 保留 站 执行 结束 , 且 CDB 就 绪 
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操作 和 状态 表 内 容 修改 : 

Vx (if(Qi[x] = r) // 对 于 任何 一 个 正在 等 该 结果 的 浮 点 寄存 器 x 
{ Regs[x] < result; // 向 该 寄存 器 写 人 结果 
Qi[x] 一 0}; // 把 该 寄存 器 的 状态 置 为 数据 就 绪 

Vx (证 (RS[x].0j = r) // 对 于 任何 一 个 正在 等 该 结果 作为 第 一 操作 数 的 保留 站 x, 
{RS[x].Vj < result; // 向 该 保留 站 的 vj 写 入 结果 
RS[x].0j < 0}); // 置 90j 为 0, 表 示 该 保留 站 的 jj 中 的 操作 数 就 绪 

Vx (if(RS[x].Qk = r) // 对 于 任何 一 个 正在 等 该 结果 作为 第 二 操作 数 的 保留 站 x, 
{RS[x]. Vk 一 result; // 向 该 保留 站 的 恋 写 人 结果 
RS[x].Qk < 0}); // 置 Qk 为 0, 表示 该 保留 站 的 呈 中 的 操作 数 就 绪 

RS[r].Busy < no; // 释 放 当 前 保留 站 ,将 之 置 为 空闲 状态 


@ store 指令 


进入 条 件 : 保留 站 = 执行 结束 , 且 RS[r].Qk=0 // 要 存储 的 数据 已 经 就 绪 





操作 和 状态 表 内 容 修改 : 
Mem[RS[r].A]< RS[r]. Vk // 数 据 写 人 存储 器 ,地 址 由 store 缓冲 器 单元 的 A 字段 给 出 
RS[r].Busy<- no; // 释 放 当 前 缓冲 器 单元 ,将 之 置 为 空闲 状态 


如 果 能 够 准确 地 预测 分 支 , 采 用 Tomasulo 算法 将 获得 很 高 的 性 能 。 这 种 方法 的 主要 
缺点 是 其 复杂 性 ,实现 它 需 要 大 量 的 硬件 。 所 以 在 单 流出 的 流水 线 中 ,采用 Tomasulo 算法 
所 带 来 的 好 处 与 所 花 的 代价 相 比 不 一 定 值得 。 但 是 ,对 于 多 流出 的 处 理 机 来 说 , 随 着 流出 能 
力 的 提高 ,寄存 器 换 名 以 及 动态 调度 技术 就 变 得 越 来 越 重 要 了 。 特 别 是 ,Tomasulo 算法 还 
是 硬件 前 瞻 执 行 的 基础 ,因此 该 算法 得 到 了 广泛 的 应 用 。 


5.2.4 动态 分 支 预测 技术 


开发 的 ILP 越 多 ,控制 相关 的 制约 就 越 大 ,就 要 求 分 支 预测 有 更 高 的 准确 度 。 本 节 中 
介绍 的 方法 对 于 每 个 时 钟 周期 流出 多 条 指令 的 处 理 机 来 说 是 非常 重要 的 ,这 是 因为 : 在 
让 流出 (每 个 时 钟 周 期 流出 条 指令 ) 的 处 理 机 中 ,过 到 分 支 指 令 的 可 能 性 增加 了 n 倍 。 要 
给 处 理 器 连续 提供 指令 ,就 需要 预测 分 支 的 结果 。@Amdahl 定律 告诉 我 们 ,机 器 的 CPI 越 
小 ,控制 停顿 的 相对 影响 就 越 大 。 

采用 这 些 动态 分 支 预测 技术 的 目的 有 两 个 : 预测 分 支 是 否 成 功 和 尽快 找到 分 支 目 标 地 
址 (或 指令 ), 从 而 避免 控制 相关 造成 流水 线 停顿 。 在 这 些 方法 中 ,需要 解决 以 下 关键 问题 : 
加 如 何 记 录 分 支 的 历史 信息 ; @@ 如 何 根据 这 些 信息 来 预测 分 支 的 去 向 ,甚至 提前 取出 分 支 
目标 处 的 指令 。 


1. 采用 分 支 历史 表 BHT 


分 支 历史 表 (Branch History Table, BHT) 法 是 最 简单 的 动态 分 支 预测 方法 。 它 用 
BHT 来 记录 相关 分 支 指令 的 “历史 ”, 并 据 此 进行 预测 。 这 个 “历史 ”是 指 最 近 一 次 或 几 次 的 
执行 情况 是 成 功 还 是 失败 。 常 采用 两 位 二 进 制 位 来 记录 历史 。 有 研究 结果 表明 ,两 位 分 支 
预测 的 性 能 与 多 位 (两 位 以 上 ) 分 支 预测 的 性 能 差不多 。 因 而 大 多 数 处 理 机 是 采用 两 位 分 支 
预测 。 

研究 结果 表明 ,对 于 SPEC89 测试 程序 来 说 ,大 小 为 4K 的 BHT 的 预测 准确 率 为 


94 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





82% 一 99% ,并 且 与 大 小 为 无 穷 大 的 BHT 的 准确 率 相 近 。 所 以 一 般 来 说 ,采用 4K 的 BHT 
就 可 以 了 。 


2. 采用 分 支 目标 缓冲 器 BTB 


在 多 流出 的 处 理 机 中 ,只 准确 地 预测 分 支 还 不 够 ,还 要 能 够 快速 地 提供 足够 的 指令 流 。 
许多 现代 的 处 理 器 都 要 求 每 个 时 钟 周期 能 提供 4 一 8 条 指令 。 这 需要 尽早 知道 分 支 是 否 成 
功 ,尽早 知道 分 支 目 标 地 址 ,尽早 获得 分 支 目标 指令 。 

对 于 前 述 5 段 流水 线 来 说 ,BHT 方法 是 在 ID 段 对 BHT 进行 访问 ,所 以 在 ID 段 的 末 
尾 , 能 够 获得 分 支 目 标 地 址 (在 ID 段 计算 出 )、 顺 序 下 一 条 指令 地 址 以 及 预测 的 结果 。 如 果 
能 再 提前 一 拍 , 即 在 IF 段 就 知道 这 些 信息 ,那么 分 支 开 销 就 可 以 减少 为 0。BTB 能 够 实现 
这 一 点 。BTB 是 Branch Target Buffer 的 缩写 ,其 中 文 名 称 是 分 支 目标 缓冲 器 。BTB 有 时 
也 称 为 分 支 目标 Cache。 

BTB 可 以 看 成 是 用 专门 的 硬件 实现 的 一 张 表格 。 表 格 中 的 每 一 项 至 少 有 两 个 字段 : 
加 执行 过 的 成 功 分 支 指令 的 地 址 ; 预测 的 分 支 目标 地 址 。 以 第 一 个 字段 作为 该 表 的 匹配 
标识 。 在 每 次 取 指 令 的 同时 ,用 该 指令 的 地 址 与 BTB 中 所 有 项 目的 第 一 个 字段 进行 比较 。 
如 果 有 匹配 的 ,我 们 就 知道 该 指令 是 分 支 指令 上 且 上 一 次 执行 是 分 支 成 功 , 据 此 我 们 预测 这 次 
执行 也 将 分 支 成 功 ,其 分 支 目 标 地 址 由 匹配 项 的 第 二 个 字段 给 出 。 如 果 没 有 匹配 的 ,就 把 当 
前 指令 当 作 普 通 的 指令 ( 即 不 是 分 支 指令 ) 来 执行 。 

当 采 用 BTB 后 ,如果 当前 指令 的 地 址 与 BTB 中 的 第 一 字段 匹配 , 则 从 分 支 目 标 处 开始 
取 指 令 。 如 果 预 测 正确 , 则 不 会 有 任何 分 支 延迟 。 如 果 预 测 错误 或 者 在 BTB 中 没有 匹配 的 
项 , 则 至 少 会 有 两 个 时 钟 周期 的 开销 。 

BTB 的 另外 两 种 形式 是 在 分 支 目 标 缓冲 器 中 增加 一 个 字段 来 存放 BHT 表 , 或 者 增加 
一 个 字段 来 存放 若干 条 分 支 目标 处 的 指令 。 后 者 可 以 一 次 性 提供 分 支 目 标 处 的 多 条 指令 ， 
这 对 于 多 流出 处 理 器 来 说 是 很 有 必要 的 。 





3. 基于 硬件 的 前 瞻 执 行 


对 于 多 流出 的 处 理 机 来 说 ,控制 相关 已 经 成 了 开发 更 多 ILP 的 一 个 主要 障碍 。 前 瞻 执 
行 能 很 好 地 解决 控制 相关 的 问题 , 它 对 分 支 指令 的 结果 进行 猜测 ,然后 按 这 个 猜测 结果 继续 
取 指 流出 和 执行 后 续 的 指令 。 只 是 指令 执行 的 结果 不 是 写 回 到 寄存 器 或 存储 器 ,而 是 放 到 
一 个 称 为 ROB(ReOrder Buffer) 的 缓冲 器 中 。 等 到 相应 的 指令 得 到 “确认 ”( 即 确实 是 应 该 
执行 的 ) 后 , 才 将 结果 写 入 寄存 器 或 存储 器 。 之 所 以 要 这 样 , 是 为 了 在 猜测 错误 的 情况 下 能 
够 恢复 原来 的 现场 

基于 硬件 的 前 瞻 执 行 是 把 3 种 思想 结合 在 了 一 起 。 

(1) 动态 分 支 预测 。 用 来 选择 后 续 执行 的 指令 。 

(2) 在 控制 相关 的 结果 尚未 出 来 之 前 ,前瞻 地 执行 后 续 指 令 。 

(3) 用 动态 调度 对 基本 块 的 各 种 组 合 进行 跨 基 本 块 的 调度 。 

对 Tomasulo 算法 加 以 扩充 ,就 可 以 支持 前 瞻 执 行 。 当 然 ,硬件 也 需要 做 相应 的 扩展 。 
在 Tomasulo 算法 中 , 写 结果 和 指令 完成 是 一 起 在 * 写 结果 ” 段 完 成 的 。 现 在 我 们 把 该 段 分 
为 “ 写 结果 ”和 “指令 确认 ”两 个 段 。“ 写 结果 ” 段 是 把 前 瞻 执 行 的 结果 写 到 ROB 中 ,并 通过 
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CDB 在 指令 之 间 传 送 结果 ,供需 要 用 到 这 些 结果 的 指令 使 用 。“ 指 令 确 认 ” 段 是 在 分 支 指令 
的 结果 出 来 后 ,对 相应 指令 的 前 瞻 执 行 给 予 确认 ,把 在 ROB 中 的 结果 写 到 寄存 器 或 存储 器 
(如 果 前 面 所 做 的 猜测 是 对 的 ) 。 如 果 发 现 前 面 对 分 支 结果 的 猜测 是 错误 的 , 那 就 不 予以 确 
认 , 并 从 那 条 分 支 指令 的 另 一 条 路 径 开始 重新 执行 。 

前 瞻 执 行 允许 指令 乱 序 执行 ,但 要 求 按 程 序 顺序 确认 。 并 且 在 指令 被 确认 之 前 ,不 允许 
它 进行 不 可 恢复 的 操作 ,如 更 新 机 器 状态 或 发 生 异 常 。 

支持 前 瞻 执 行 的 浮 点 部 件 的 结构 与 基于 Tomasulo 算法 的 MIPS 处 理 器 浮 点 部 件 的 基 
本 结构 相 比 ,主要 是 增加 了 一 个 ROB 缓冲 器 。ROB 是 为 实现 前 瞻 执 行 而 设置 的 , 它 在 指令 
操作 完成 后 到 指令 被 确认 这 段 时 间 ,为 指令 保存 数据 。 正 在 前 瞻 执 行 的 指令 之 间 也 是 通过 
ROB 传送 结果 的 ,因为 前 瞻 执 行 的 指令 在 被 确认 前 是 不 能 写 寄存 器 的 。 

ROB 中 的 每 一 项 由 以 下 4 个 字段 组 成 。 

(1) 指令 类 型 : 指出 该 指令 是 分 支 指令 store 指令 或 寄存 器 操作 指令 。 

(2) 目的 地 址 : 给 出 指令 执行 结果 应 写 入 的 目的 寄存 器 号 (如 果 是 load 和 ALU 指令 ) 
或 存储 器 单元 的 地 址 (如 果 是 store 指令 ) 。 

(3) 数据 值 字段 : 用 来 保存 指令 前 瞻 执 行 的 结果 ,直到 指令 得 到 确认 。 

(4) 就 绪 字段 : 指出 指令 是 否 已 经 完成 执行 并 且 数据 已 就 绪 。 

在 前 瞻 执 行 机 制 中 ,Tomasulo 算法 中 保留 站 的 换 名 功能 是 由 ROB 来 完成 的 。 但 在 指 
令 流 出 到 开始 执行 期 间 , 仍 然 需要 有 地 方 来 存放 运算 操作 码 和 操作 数 。 这 个 功能 仍 由 保留 
站 来 完成 。 由 于 每 条 指令 在 被 确认 前 ,在 ROB 中 都 有 相应 的 一 项 ,所 以 对 于 执行 结果 我 们 
是 用 ROB 项 的 编号 作为 标识 ,而 不 像 Tomasulo 算法 那样 是 用 保留 站 的 编号 。 这 就 要 求 在 
保留 站 中 记录 分 配给 该 指令 的 ROB 项 编号 。 

采用 前 瞻 执 行 机 制 后 ,指令 的 执行 步骤 如 下 。 

1) 流出 

从 浮 点 指令 队列 的 头 部 取 一 条 指令 ,如 果 有 空闲 的 保留 站 ( 设 为 rD) 且 有 空闲 的 ROB 项 
( 设 为 b) ,就 流出 该 指令 ,并 把 相应 的 信息 放 入 保留 站 r 和 ROB 项 b。 即 : 如 果 该 指令 需要 
的 操作 数 已 经 在 寄存 器 或 ROB 中 就 绪 , 就 把 它 ( 们 ) 送 入 保留 站 r 中 。 修 改 * 和 的 控制 字 
段 , 表 示 它 们 已 经 被 占用 。ROB 项 b 的 编号 也 要 放 入 保留 站 r, 以 便当 该 保留 站 的 执行 结果 
被 放 到 CDB 上 时 可 以 用 它 作为 标识 。 如 果 保 留 站 或 ROB 全 满 , 便 停止 流出 指令 ,直到 它们 
都 有 空闲 的 项 。 

2) 执行 

如 果 有 操作 数 尚未 就 绪 , 就 等 待 , 并 不 断 地 监测 CDB。 这 一 步 检测 RAW 冲突 。 当 两 
个 操作 数 都 已 在 保留 站 中 就 绪 后 ,就 可 以 执行 该 指令 的 操作 。load 指令 的 操作 还 是 分 两 步 
完成 (有 效 地 址 计算 和 读 取 数 据 ) ,store 指令 在 这 一 步 只 进行 有 效 地 址 计算 。 

3) 写 结果 

当 结 果 产 生 后 ,将 该 结果 连同 本 指令 在 流出 段 所 分 配 到 的 ROB 项 的 编号 放 到 CDB 上 ， 
经 CDB 写 到 ROB 以 及 所 有 等 待 该 结果 的 保留 站 。 然 后 释放 产生 该 结果 的 保留 站 。store 
指令 的 操作 有 些 特殊 (与 Tomasulo 算法 不 同 ) : 如 果 要 写 入 存储 器 的 数据 已 经 就 绪 ,就 把 该 
数据 写 人 分 配给 该 store 指令 的 ROB 项 。 否 则 ,就 监测 CDB, 直 到 那个 数据 在 CDB 上 播送 
出 来 , 才 将 其 写 人 分 配给 该 store 指令 的 ROB 项 。 


96 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





4) 确认 

这 一 阶段 对 分 支 指令 .store 指令 以 及 其 他 指令 的 处 理 不 同 。 

(1) 对 于 除 分 支 指令 和 store 指令 以 外 的 指令 来 说 , 当 该 指令 到 达 ROB 队列 的 头 部 而 
且 其 结果 已 经 就 绪 时 ,就 把 该 结果 写 入 该 指令 的 目的 寄存 器 ,并 从 ROB 中 删除 该 指令 。 

(2) 对 store 指令 的 处 理 与 (1) 类 似 ,只 是 它 是 把 结果 写 和 人 存储 器 。 

(3) 当 预 测 错误 的 分 支 指令 到 达 ROB 队列 的 头 部 时 ,就 表示 是 错误 的 前 瞻 执 行 。 这 时 
要 清空 ROB, 并 从 分 支 指令 的 另 一 个 分 支 重 新 开始 执行 。 

(4) 当 预 测 正 确 的 分 支 指令 到 达 ROB 队列 的 头 部 时 ,该 指令 执行 完毕 。 

一 旦 指令 得 到 确认 ,就 释放 它 所 占用 的 ROB 项 。 当 ROB 满 时 ,就 停止 指令 的 流出 , 直 
到 有 空闲 项 被 释放 出 来 。 

由 于 前 有 瞻 执 行 通过 ROB 实现 了 指令 的 顺序 完成 ,所 以 它 不 仅 能 够 进行 前 瞻 执 行 ,而 且 
能 够 实现 精确 异常 。 

前 瞻 执 行 的 主要 缺点 是 : 所 需 的 硬件 太 复 杂 。 与 Tomasulo 算法 相 比 ,在 控制 方面 复杂 
多 了 ,因而 在 控制 逻辑 硬件 方面 增加 了 许多 。 


5.2.5 多 指令 流出 技术 


在 单 流出 的 情况 下 ,CPI 不 可 能 小 于 1。 如 果 想 进一步 提高 性 能 ,使 CPI 小 于 1, 就 必须 
采用 多 流出 技术 ,在 每 个 时 钟 周期 流出 多 条 指令 。 

多 流出 处 理 机 有 两 种 基本 风格 : 超标 量 和 超 长 指令 字 (Very Long Instruction Word， 
VLIW)。 超 标量 在 每 个 时 钟 周 期 流出 的 指令 条 数 不 固定 , 依 代码 的 具体 情况 而 定 , 不 过 有 
个 上 限 。 如 果 这 个 上 限 为 ”就 称 该 处 理 机 为 m- 流 出。 对 于 超标 量 处 理 机 , 既 可 以 通过 编译 
器 进行 静态 调度 ,也 可 以 基于 Tomasulo 算法 进行 动态 调度 。 静 态 调度 的 超标 量 处 理 机 一 
般 采用 按 序 执行 ,而 动态 调度 的 处 理 机 一 般 采 用 乱 序 执行 。 

与 超标 量 处 理 机 不 同 , 超 长 指令 字 VLIW 处 理 机 在 每 个 时 钟 周期 流出 的 指令 条 数 是 固 
定 的 ,这 些 指令 构成 一 条 长 指令 或 者 一 个 指令 包 。 在 这 个 指令 包 中 ,指令 之 间 的 并 行 性 是 通 
过 指令 显 式 地 表示 出 来 的 。 这 种 处 理 机 的 指令 调度 由 编译 器 静态 完成 。 

与 VLIW 处 理 机 相 比 ,超标 量 处 理 机 有 两 个 优点 。 

(1) 超标 量 结构 对 程序 员 是 透明 的 ,处 理 机 能 自己 检测 下 一 条 指令 是 否 能 流出 ,不 需要 
由 编译 器 或 专门 的 变换 程序 对 程序 中 的 指令 进行 重新 排列 。 

(2) 即使 是 没有 经 过 编译 器 针对 超标 量 结构 进行 调度 优化 的 代码 或 是 旧 的 编译 器 生成 
的 代码 也 可 以 运行 ,当然 运行 的 效果 不 会 很 好 。 要 想 达 到 很 好 的 效果 ,方法 之 一 就 是 使 用 动 
态 超 标量 调度 技术 。 


1. 基于 静态 调度 的 多 流出 技术 


在 静态 调度 的 超标 量 处 理 机 中 ,指令 按 序 流 出 。 所 有 的 冲突 检测 都 在 流出 时 进行 ,由 硬 
件 检测 当前 流出 的 指令 之 间 是 否 存在 冲突 以 及 它们 与 正在 执行 的 指令 之 间 是 否 有 冲突 。 如 
果 在 当前 流出 的 指令 序列 中 , 某 条 指令 存在 冲突 ,那么 就 只 流出 该 指令 之 前 的 指令 。 

考虑 一 个 4 流出 的 静态 调度 超标 量 处 理 机 。 在 取 指 令 阶 段 ,流水 线 将 从 取 指 令 部 件 收 


第 5 章 ”指令 级 并 行 性 及 其 开发 一 一 硬件 方法 97 





到 1 一 4 条 指令 ,流出 部 件 通 过 检测 冲突 来 确定 这 些 指令 是 全 部 流出 还 是 部 分 流出 。 由 于 这 
些 检测 比较 复杂 ,难以 在 一 个 时 钟 周期 内 完成 ,所 以 许多 静态 调度 的 超标 量 处 理 机 都 是 将 其 
分 成 多 个 流水 段 , 按 流水 方式 工作 。 动 态 调度 的 超标 量 处 理 机 中 也 是 如 此 。 

如 果 MIPS 处 理 机 按 超标 量 方式 工作 ,结果 将 会 怎样 ? 我 们 假设 每 个 时 钟 周 期 可 以 流 
出 两 条 指令 :“1 条 整数 型 指令 十 1 条 浮 点 操作 指令 ”, 其 中 把 load 指令 、store 指令 ,分支 指 
令 也 归 类 为 整数 型 指令 。 与 任意 的 双流 出 相 比 ,把 整数 指令 和 浮 点 指令 结合 流出 是 简单 了 
不 少 , 对 硬件 的 要 求 也 没 那么 高 。 

为 了 实现 每 个 时 钟 周期 流出 两 条 指令 ,显然 是 要 能 够 同时 取 两 条 指令 (64 位 ), 也 要 能 
同时 译 码 两 条 指令 (64 位 ) 。 对 指令 的 处 理 包括 以 下 步骤 : 四 从 Cache 中 取 两 条 指令 ; @ 确 
定 哪 几 条 指令 可 以 流出 (0 一 2 条 指令 ); 加 把 它们 发 送 到 相应 的 功能 部 件 。 取 两 条 指令 还 
比较 容易 实现 , 若 要 取 更 多 的 指令 ,所 要 进行 的 处 理 就 复杂 多 了 。 

对 于 上 述 简单 的 超标 量 处 理 机 来 说 ,冲突 检测 还 比较 简单 ,因为 “1 条 整数 型 指令 十 1 条 
浮 点 指令 ”的 流出 方式 消除 了 大 多 数 流出 包 内 的 冲突 。 主 要 的 难点 出 现在 当 整数 型 指令 是 
一 条 浮 点 load store 或 move 指令 的 情况 。 这 时 有 可 能 会 出 现 争 用 浮 点 寄存 器 端口 或 者 产 
生 新 的 RAW 冲突 。 采 用 “1 条 整数 型 指令 十 1 条 浮 点 指令 ?并 行 流出 的 方式 ,需要 增加 的 硬 
件 很 少 。 这 是 因为 整数 指令 和 浮 点 指令 使 用 不 同 的 寄存 器 组 和 不 同 的 功能 部 件 。 

为 了 能 有 效 地 利用 超标 量 处 理 机 所 具有 的 并 行 性 ,需要 采用 更 有 效 的 编译 技术 或 者 硬 
件 调度 技术 。 如 果 不 采用 这 些 技术 ,超标 量 技术 所 能 带 来 的 性 能 上 的 提高 可 能 很 有 限 。 


2. 基于 动态 调度 的 多 流出 技术 


在 多 流出 处 理 机 中 ,动态 调度 技术 是 提高 性 能 的 一 种 方法 。 动 态 调度 不 仅 拥有 能 解决 
数据 冲突 和 提高 性 能 的 典型 优点 ,而 且 有 可 能 克服 指令 流出 所 受 的 限制 。 尽 管 从 硬件 的 角 
度 来 看 ,在 每 个 时 钟 周期 最 多 只 能 启动 一 个 整数 操作 和 一 个 浮 点 操作 的 执行 ,但 动态 调度 可 
以 使 得 在 指令 流出 时 不 受 这 个 限制 ,至 少 在 保留 站 被 全 部 占用 之 前 是 如 此 。 

假设 我 们 要 对 Tomasulo 算法 进行 扩展 ,使 之 能 支持 双流 出 超标 量 流水 线 , 但 又 不 想 乱 
序 地 向 保留 站 流出 指令 ,因为 这 会 破坏 程序 语义 。 为 了 充分 利用 动态 调度 的 好 处 ,我 们 也 许 
应 该 去 掉 每 个 时 钟 周期 只 能 流出 “1 条 整数 型 指令 十 1 条 浮 点 指令 ”的 限制 ,但 这 会 大 大 增加 
指令 流出 的 硬件 复杂 度 。 

在 采用 动态 调度 的 处 理 机 中 ,有 两 种 不 同 的 方法 可 以 用 来 实现 多 流出 。 它 们 都 是 建立 
在 这 样 一 个 观点 之 上 的 : 动态 调度 关键 在 于 对 保留 站 的 分 配 和 对 流水 线 控制 表格 的 修改 。 
一 种 方法 是 在 半 个 时 钟 周期 内 完成 流出 步骤 ,这 样 一 个 时 钟 周期 就 能 处 理 两 条 指令 。 另 一 
种 方法 是 设置 一 次 能 同时 处 理 两 条 指令 的 逻辑 电路 。 现 代 的 流出 4 条 或 4 条 以 上 指令 的 超 
标量 处 理 机 经 常 是 综合 采用 这 两 种 方法 , 即 : 不 仅 采 用 流水 ,而 且 还 把 流出 电路 加 宽 。 


3. 超 长 指令 字 技 术 


下 面 只 做 简单 的 介绍 。 更 详细 的 论述 见 第 6 章 。 

超 长 指令 字 (Very Long Instruction Word,VLIW) 技 术 是 另 一 种 多 指令 流出 技术 。 与 
超标 量 不 同 , 它 在 指令 流出 时 不 需要 进行 复杂 的 冲突 检测 ,而 是 依靠 编译 器 全 部 安排 好 了 。 
在 编译 时 ,编译 器 找 出 指令 之 间 潜 在 的 并 行 性 ,并 通过 指令 调度 把 可 能 出 现 的 数据 冲突 减少 





98 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





到 最 少 , 最 后 把 能 并 行 执行 的 多 条 指令 组 装 成 一 条 很 长 的 指令 。 这 种 指令 字 经 常 是 一 百 多 
位 到 几 百 位 , 超 长 指令 字 因此 得 名 。 

在 VLIW 处 理 机 中 一 般 设置 有 多 个 功能 部 件 。 相 应 地 ,指令 字 也 被 分 割 成 一 些 字 段 ， 
每 个 字段 称 为 一 个 操作 槽 ,直接 独立 地 控制 一 个 功能 部 件 。 为 了 使 功能 部 件 充分 忙碌 ,程序 
指令 序列 中 应 有 足够 的 并 行 性 ,从 而 尽量 填 满 每 个 操作 模 。 这 种 并 行 性 是 完全 依靠 编译 器 
来 挖掘 的 。 它 不 需要 超标 量 处 理 机 中 用 于 指令 流出 控制 的 硬件 ,因而 控制 硬件 比较 简单 。 
特别 是 当 流 出 宽度 增加 时 ,VLIW 技术 的 优点 更 加 明显 。 

当然 ,VLIW 也 存在 一 些 问 题 ,包括 : 

(1) 程序 代码 长 度 增加 了 ; 

(2) 采用 了 锁 步 机 制 ; 

(3) 机 器 代码 的 不 兼容 性 。 


4. 多 流出 处 理 器 受到 的 限制 


指令 多 流出 处 理 器 的 流出 能 力主 要 受 以 下 3 个 方面 的 影响 。 

(1) 程序 所 固有 的 指令 级 并 行 性 ; 

(2) 硬件 实现 上 的 困难 ; 

(3) 超标 量 和 超 长 指令 字 处 理 器 固有 的 技术 限制 。 

其 中 ,第 一 个 限制 是 最 简单 的 也 是 最 根本 的 因素 。 对 于 流水 线 处 理 器 ,需要 有 大 量 可 并 
行 执行 的 操作 才能 避免 流水 线 出 现 停顿 。 如 果 浮 点 流水 线 的 延迟 为 5 个 时 钟 周期 ,要 使 该 
浮 点 流水 线 不 停顿 ,就 必须 有 5 条 无 相关 的 浮 点 指令 。 通 常情 况 下 ,所 需要 的 无 相关 指令 数 
等 于 流水 线 的 深度 乘 以 可 以 同时 工作 的 功能 部 件数 。 

第 二 个 限制 ,是 多 流出 的 处 理 器 需要 大 量 的 硬件 资源 。 因 为 每 个 时 钟 周期 不 仅 要 流出 
多 条 指令 ,而 且 要 执行 它们 。 随 着 每 个 时 钟 周期 流出 指令 数 的 增加 ,所 需 的 硬件 成 正比 例 地 
增长 ,所 需 的 存储 器 带宽 和 寄存 器 带宽 也 大 大 增加 了 ,这 样 的 带宽 要 求 必 然 导 致 大 量 增加 硅 
片面 积 ,加 大 面积 就 导致 时 钟 频率 下 降 . 功 耗 增加 、 可 靠 性 降低 等 一 系列 问题 。 

如 果 要 使 流出 指令 的 数目 增加 ,就 需要 进一步 增加 更 多 的 存储 器 端口 。 多 端口 .层次 化 
的 存储 系统 带 来 的 系统 复杂 性 和 访问 延迟 ,可 能 是 指令 多 流出 技术 所 面临 的 最 严重 的 硬件 
的 限制 。 

多 指令 流出 所 需 的 硬件 量 随 实现 方法 的 不 同 有 很 大 的 差别 。 一 个 极端 是 动态 调度 的 超 
标量 处 理 器 ,无 论 采 用 计 分 牌 技术 还 是 Tomasulo 算法 ,都 需要 大 量 的 硬件 ,而 且 动 态 调度 
也 大 大 增加 了 设计 的 复杂 性 ,使 提高 时 钟 频率 更 加 困难 。 另 一 个 极端 是 VLIW 处 理 器 , 指 
令 的 流出 和 调度 仅 需 要 很 少 甚至 不 需要 额外 的 硬件 ,因为 这 些 工作 全 都 由 编译 器 进行 。 这 
两 种 极端 之 间 是 现存 的 多 数 超标 量 处 理 器 ,它们 将 编译 器 的 静态 调度 和 硬件 的 动态 调度 机 
制 结合 起 来 ,共同 决定 可 同时 并 行 流出 的 指令 数 。 


5. 超 流水 线 处 理 机 


在 第 3 章 介 绍 的 流水 处 理 机 中 ,是 把 一 条 指令 的 执行 过 程 分 解 为 取 指 令 . 译 码 .执行 \ 访 
存 、 写 结果 5 个 流水 段 。 如 果 把 其 中 的 每 个 流水 段 进一步 细 分 ,例如 ,分 解 为 两 个 延迟 时 间 
更 短 的 流水 段 , 则 一 条 指令 的 执行 过 程 就 要 经 过 10 个 流水 段 。 这 样 ,在 一 个 时 钟 周期 内 , 取 


第 5 章 ”指令 级 并 行 性 及 其 开发 一 一 硬件 方法 99 





指令 译 码 ,执行 、 访 存 、 写 结果 等 各 有 段 都 在 处 理 各 自 的 两 条 指令 。 这 种 在 一 个 时 钟 周期 内 能 
够 分 时 流出 多 条 指令 的 处 理 机 称 为 超 流 水 线 处 理 机 。 

与 超标 量 处 理 机 不 同 , 超 流水 线 处 理 机 只 需 增 加 少量 硬件 ,是 通过 各 部 分 硬件 的 充分 重 
从 工作 来 提高 性 能 的 。 超 标量 处 理 机 采用 的 是 空间 并 行 性 ,而 超 流水 线 处 理 机 采用 的 是 时 
间 并 行 性 。 

对 于 一 台 每 个 时 钟 周期 能 流出 n 条 指令 的 超 流水 线 计算 机 来 说 ,这 n 条 指令 不 是 同时 
流出 的 ,而 是 每 隔 1/n 个 时 钟 周期 流出 一 条 指令 。 因 此 ,实际 上 该 流水 线 的 工作 周期 是 系统 
时 钟 周期 的 1/n。 

在 有 的 资料 中 ,把 指令 流水 线 级 数 为 8 或 8 以 上 的 流水 线 处 理 机 称 为 超 流 水 线 处 理 机 。 











习 题 

1. 概念 题 

【 题 5.1】 解释 下 列 名 词 

指令 级 并 行 IPC 循环 级 并 行 性 指令 的 动态 调度 

指令 的 静态 调度 不 精确 异常 精确 异常 CDB 

BHT 分 支 目 标 缓冲 。 ROB 超标 量 

超 流水 超 长 指令 字 

2. 填空 题 

【 题 5. 2〗 开发 指令 级 并 行 的 方法 主要 有 两 类 : 基于 硬件 的 方法 以 及 基于 软 
件 的 方法 。 

【 题 5.3】 如 果 一 串 连 续 的 代码 除了 入 口 和 出 口 以 外 ,没有 其 他 的 分 支 指令 和 转 入 点 ， 
则 称 之 为 一 个 

【 题 5. 4】 说 出 两 种 比较 典型 的 动态 调度 算法 ， 和 

【 题 5.5】〗】 要 扩充 Tomasulo 算法 支持 前 瞻 执 行 , 需 将 Tomasulo 席 法 中 的 * 写 结果 ” 段 
分 为 和 两 个 段 。 

【 题 5.6】 前 瞻 执 行 允 许 指令 执行 ,但 要 求 按 确认 。 

【 题 5.7】 Tomasulo 算法 中 换 名 功能 是 由 来 完成 ; 而 在 前 瞻 执 行 机 制 中 , 换 
名 功能 是 由 来 完成 的 。 

【 题 5.8】 静态 指令 调度 技术 是 优化 的 来 完成 ,其 基本 思想 是 重 排 指令 序列 ， 
拉 开 具有 的 有 关 指 令 间 的 距离 。 

【 题 5.9】 动态 分 支 预测 的 依据 是 从 指令 过 去 的 行为 来 预测 它 将 来 的 行为 ， 
即 根据 近期 转移 是 否 成 功 的 记录 ,来 预测 下 一 次 转移 的 

【 题 5.10】 多 流出 处 理 机 有 和 两 种 基本 风格 。 

3. 问答 题 


【 题 5.11】 简 述 开发 指令 级 并 行 ILP 的 两 种 途径 。 
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【 题 5. 12】 
含义 。 

【 题 5. 13】 

【 题 5. 14】 

【 题 5. 15】 

【 题 5. 16】 

【 题 5. 17】 


为 了 保证 程序 执行 的 正确 性 ,必须 保持 哪 两 个 最 关键 的 属性 ? 并 简 述 其 


指令 的 动态 调度 有 何 优点 ? 
记分 牌 算法 中 ,记分 牌 中 记录 的 信息 由 哪 三 部 分 构成 ? 
简 述 Tomasulo 算法 的 基本 思想 。 
简 述 Tomasulo 算法 中 ,指令 流出 段 所 做 的 主要 工作 。 
与 在 Tomasulo 算法 之 前 提出 的 其 他 更 简单 的 动态 调度 方法 相 比 ， 


Tomasulo 算法 具有 哪 两 个 主要 的 优点 ? 


【 题 5.18】 采用 动态 分 支 预测 技术 的 目的 是 什么 ? 在 所 采用 的 方法 中 ,需要 解决 哪些 
关键 问题 ? 

【 题 5. 19】 给 出 采用 分 支 目 标 缓冲 器 BTB 后 ,在 流水 线 3 个 阶段 (IF 段 .ID 段 、EX 
段 ) 所 进行 的 相关 操作 。 

【 题 5. 20〗 基于 硬件 的 前 瞻 执 行 是 把 哪 3 种 思想 结合 在 了 一 起 ? 

【是 5.21】 ROB 中 的 每 一 项 由 哪 4 个 字段 组 成 ? 并 简 述 其 含义 。 

【是 5.22】 简 述 采用 前 有 瞻 执 行 机 制 后 ,指令 确认 段 所 做 的 主要 工作 。 

【 题 5.23〗 与 VLIW 处 理 机 相 比 ,超标 量 处 理 机 有 什么 优点 ? 

【 题 5.24】 指令 多 流出 处 理 器 的 流出 能 力主 要 受 哪 3 个 方面 的 影响 ? 

4. 应 用 题 

【 题 5.25】 有 A、B.C.D 4 个 存储 器 操作 数 ,要 求 完 成 (AXB) 十 (C 十 D) 的 运算 ,原来 
使 用 的 程序 如 下 : 

I LOAD R1,M(A) ;RM(A) 

I, LOAD R2,M(B) ;Rs <—M(B) 

I MUL  R5,R1,R2 ;Rs 一 (Ri) * (R) 

I LOAD R3,M(C) ;RM(C) 

Is LOAD R4,M(D) ;RM(D) 

Is ADD  R2,R3,R4 ;Ra 一 (Rs) + (Re) 

I ADD  R2,R2,R5 7Rz< 一 (Ra ) + (Rs) 


现 采用 静态 指令 调度 方法 ,请 写 出 该 程序 调度 后 的 指令 序列 。 


【 题 5. 26】 
序 代 码 如 下 : 


I ADD Rl, 
IT ADD R2, 
I SUB Ril, 


假定 有 多 个 加 法 器 ,不 存在 加 法 器 的 资源 冲突 。 有 3 条 连续 指令 组 成 的 程 


R2, RA ;Ri 一 (Re) + (Re) 
R1，1 ;Ra 一 (Ri) + 1 
R4，B5 ;Ri 一 (R)-(R) 


(1) 分 析 程 序 代 码 段 中 的 数据 相关 。 
(2) 采用 何 种 硬件 技术 可 解决 这 些 数 据 相 关 ? 请 加 以 说 明 。 


【 题 5. 27】 


假设 有 一 条 长 流水 线 , 仅 对 条 件 转移 指令 使 用 分 支 目标 缓冲 。 假 设 分 支 预 


测 错误 的 开销 为 4 个 时 钟 周期 ,缓冲 不 命中 的 开销 为 3 个 时 钟 周期 。 假 设 : 命中 率 为 90% ， 
预测 精度 为 90% ,分 支 频率 为 15% ,没有 分 支 的 基本 CPI 为 1。 
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(1) 求 程序 执行 的 CPI。 

(2) 相对 于 采用 固定 的 两 个 时 钟 周期 延迟 的 分 支 处 理 , 哪 种 方法 程序 执行 速度 更 快 ? 

【 题 5. 28〗 假设 分 支 目标 缓冲 的 命中 率 为 90% ,程序 中 无 条 件 转移 指令 的 比例 为 
5% ,没有 无 条 件 转 移 指 令 的 程序 CPI 值 为 1。 假设 分 支 目 标 缓冲 中 包含 分 支 目标 指令 ,多 
许 无 条 件 转移 指令 进入 分 支 目标 缓冲 , 则 程序 的 CPI 值 为 多 少 ? 假设 原来 的 CPI=1. 1。 

【 题 5. 29〗】 对 于 下 述 指令 序列 : 


ED F6, 34(R2) 
ED F2, 45(R3) 
MUL.D FO, F2, F4 
SUB.D F8, F2, F6 
DIV.D F10, F0, F6 
ADD.D F6, F8, F2 


(1) 给 出 当 第 一 条 指令 完成 并 写 人 结果 时 ,Tomasulo 算法 所 用 的 各 信息 表 中 的 内 容 。 

(2) 假设 各 种 操作 的 延迟 为 : 

load: 1 个 时 钟 周期 

加 法 : 2 个 时 钟 周期 

乘法 : 10 个 时 钟 周期 

除法 : 40 个 时 钟 周期 

给 出 MUL. D 指令 准备 写 结 果 时 各 状态 表 的 内 容 。 

【 题 5.30】 假设 浮 点 功能 部 件 的 延迟 时 间 为 : 加 法 两 个 时 钟 周 期 ,乘法 10 个 时 钟 周 
期 ,除法 40 个 时 钟 周期 。 对 于 下 面 的 代码 段 ,在 基于 Tomasulo 算法 的 支持 前 瞻 执 行 的 浮 
点 部 件 的 结构 上 ,给 出 当 指令 MUL. D 即将 确认 时 的 状态 表 内 容 。 

L.D F6, 34(R2) 

L.D F2, 45(R3) 

MUL.D F0, F2, F4 

SUB.D F8, F6, F2 


DIV.D F10, F0, F6 
ADD.D F6, F8, F2 


【 题 5.31】 下 面 的 一 段 MIPS 汇编 程序 是 计算 高 斯 消去 法 中 的 关键 一 步 ,用 于 完成 下 
面 公式 的 计算 ， 
Y 一 aXX+Y 
指令 的 延迟 如 表 5. 1 所 示 。 
表 5.1 指令 的 延迟 














产生 结果 的 指令 使 用 结果 的 指令 延迟 (时 钟 周期 数 ) 
浮 点 计算 另 一 个 浮 点 计算 3 
浮 点 计算 浮 点 store(S.D) 2 
浮 点 load(L.D) 浮 点 计算 
浮 点 load(L.D) 浮 点 store(S. D) 0 
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整数 指令 均 为 一 个 时 钟 周 期 完成 , 浮 点 和 整数 部 件 均 采 用 流水 。 整 数 操作 之 间 以 及 与 
其 他 所 有 浮 点 操作 之 间 的 延迟 为 0, 转移 指令 的 延迟 为 0。X 中 的 最 后 一 个 元 素 存放 在 存储 
器 中 的 地 址 为 DONE。 


FOO: L.D F2, 0(R1) 
MUT.D ~ Fd, F2, FO 
L.D F6, 0(R2) 
RDD.D ~ F6, F4, F6 
S.D F6, O[R2] 


DRDDIU  R1, Rl1, #8 
DADDIU  R2, R2, #8 
DSUBIU  R3, Rl, #DONE 
BNEZ R3, FOO 


(1) 对 于 标准 的 MIPS 单 流水 线 , 上 述 循环 计算 一 个 Y 值 需要 多 少时 间 ? 其 中 有 多 少 
空转 周期 ? 

(2) 对 于 标准 的 MIPS 单 流水 线 , 将 上 述 循环 顺序 展开 4 次 ,不 进行 任何 指令 调度 , 计 
算 一 个 Y 值 平 均 需 要 多 少时 间 ? 加 速 比 是 多 少 ? 其 加 速 是 如 何 获 得 的 ? 

(3) 对 于 标准 的 MIPS 单 流水 线 , 将 上 述 循环 顺序 展开 4 次 ,优化 和 调度 指令 ,使 循环 
处 理 时 间 达 到 最 优 ,计算 一 个 Y 值 平均 需要 多 少时 间 ? 加 速 比 是 多 少 ? 

(4) 对 于 采用 前 瞻 执 行 机 制 的 MIPS 处 理 器 (只 有 一 个 整数 部 件 ) , 当 循环 第 二 次 执行 
到 BNEZ R3,FOO 时 , 写 出 前 面 所 有 指令 的 状态 ,包括 指令 使 用 的 保留 站 、 指 令 起 始 节拍 、 
执行 节拍 和 写 结果 节拍 ,并 写 出 处 理 器 当前 的 状态 。 

(5) 对 于 两 路 超标 量 的 MIPS 流水 线 , 设 有 两 个 指令 流出 部 件 , 可 以 流出 任意 组 合 的 指 
令 , 系 统 中 的 功能 部 件数 量 不 受 限 制 。 将 上 述 循环 展开 4 次 ,优化 和 调度 指令 ,使 循环 处 理 
时 间 达 到 最 优 。 计 算 一 个 Y 值 平均 需要 多 少时 间 ? 加 速 比 是 多 少 ? 

(6) 对 于 超 长 指令 字 MIPS 处 理 器 ,将 上 述 循环 展开 4 次 ,优化 和 调度 指令 ,使 循环 处 
理 时 间 达 到 最 优 。 计 算 一 个 Y 值 平均 需要 多 少时 间 ? 加 速 比 是 多 少 ? 

【 题 5.32】 对 于 两 路 超标 量 处 理 器 ,从 存储 器 取 数 据 有 两 拍 附加 延迟 ,其 他 操作 均 有 1 
拍 附 加 延迟 ,对 于 下 列 代码 ,请 按 要 求 进行 指令 调度 。 


Im R4, (R5) 
IN R7, (R8) 
DADD ~ R9, R4, R7 
ID R10, (R11) 


DMUL R12, R13, R14 
DSUB R2, R3, R1 


SW R15, (R2) 

DMUL R21, R4, R7 
SW R23, (R22) 
SW R21, (R24) 


(1) 假设 两 路 功能 部 件 中 同时 最 多 只 有 一 路 可 以 是 访问 存储 器 的 操作 ,同时 也 最 多 只 
有 一 路 可 以 是 运算 操作 ,指令 顺序 不 变 。 
(2) 假设 两 路 功能 部 件 均 可 以 执行 任何 操作 ,指令 顺序 不 变 。 
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(3) 假设 指令 窗口 足够 大 ,指令 可 以 乱 序 (out-of-order) 流 出 ,两 路 功能 部 件 均 可 以 执行 
任何 操作 。 

【 题 5.33】 设 指 令 流 水 线 由 取 指 令 、 分 析 指 令 和 执行 指令 3 个 部 件 构成 ,每 个 部 件 经 
过 的 时 间 为 At, 连 续 流入 12 条 指令 。 分 别 画 出 标量 流水 处 理 机 以 及 ILP 均 为 4 的 超标 量 
处 理 机 、 超 长 指令 字 处 理 机 、 超 流水 处 理 机 的 时 空 图 ,并 分 别 计算 它们 相对 于 标量 流水 处 理 
机 的 加 速 比 。 

【 题 5. 34】 用 一 台 每 个 时 钟 周 期 发 射 两 条 指令 的 超标 量 处 理 机 运行 下 面 一 段 程序 。 
所 有 指令 都 要 进行 取 指 (IF) . 译 码 (ID) 执行 、 写 结果 (WB)4 个 阶段 。 其 中 ,IF、ID、WB 三 
个 阶段 各 为 一 个 流水 段 , 其 延迟 时 间 都 为 10ns。 在 执行 阶段 ,LOAD 操作 、AND 操作 各 延 
迟 10ns,ADD 操作 延迟 20ns, MUL 操作 延迟 30ns。 这 4 种 功能 部 件 各 设置 一 个 ,它们 可 以 
并 行 工作 。ADD 部 件 和 MUL 部 件 都 采用 流水 结构 ,每 一 级 流水 线 的 延迟 时 间 都 是 10ns。 


I LOAD RO, M(A) ;BoM(A) 
I ADD RI1, RO ;Ri 一 (R) +(Ro) 
I LOAD R2, M(B) ;Ra <—M(B) 
TI MOL  R3，R4 JR 一 (Rs )x (Re) 
Is RND  R4，R5 JR 一 (Re)A 人 (Rs) 
Is RDD R2, R5 Ro (R) + (Rs) 


(1) 请 列 出 程序 代码 中 所 有 的 数据 相关 及 其 相关 类 型 。 

(2) 假设 所 有 运算 型 指令 都 在 译 码 (ID) 流 水 段 读 寄存 器 ,在 写 结 果 (WB) 流 水 段 写 寄存 
器 ,采用 顺序 发 射 顺序 完成 的 调度 方法 。 画 出 流水 线 的 时 空 图 ; 计算 执行 这 个 程序 所 用 的 
时 间 。 

【 题 5. 35】 对 于 采用 了 Tomasulo 算法 和 多 流出 技术 的 MIPS 流水 线 , 考 虑 以 下 简单 
循环 的 执行 。 该 程序 把 F2 中 的 标量 加 到 一 个 向 量 的 每 个 元 素 上 。 


Loop: L.D FO0, 0(R1) // 取 一 个 数组 元 素 放 入 F0 
ADD.D ~ Fd, F0, F2 // 加 上 在 F2 中 的 标量 
S. D F4，0(R1) // 存 结果 
DADDIU Ri, Rl, # -8 // 指 针 减 8( 每 个 数据 占 8 个 字 节 ) 
BNE R1, R2, Loop // 若 Rl 不 等 于 R2, 表 示 尚 未 结束 ,转移 
// 到 Loop 继续 
现 做 以 下 假设 : 


(1) 每 个 时 钟 周期 能 流出 一 条 整数 指令 和 一 条 浮 点 指令 ,即使 它们 相关 也 是 如 此 。 

(2) 整数 ALU 运算 和 地 址 计算 共用 一 个 整数 部 件 ; 并 且 对 于 每 一 种 浮 点 操作 类 型 都 
有 一 个 独立 的 流水 化 了 的 浮 点 功能 部 件 。 

(3) 指令 流出 和 写 结果 各 占用 一 个 时 钟 周期 。 

(4) 具有 动态 分 支 预测 部 件 和 一 个 独立 的 计算 分 支 条 件 的 功能 部 件 。 

(5) 跟 大 多 数 动态 调度 处 理 器 一 样 , 写 回 段 的 存在 意味 着 实际 的 指令 延迟 会 比 按 序 流 
动 的 简单 流水 线 多 一 个 时 钟 周期 。 所 以 .从 产生 结果 数据 的 源 指令 到 使 用 该 结果 数据 的 指 
令 之 间 的 延迟 为 : 整数 运算 一 个 周期 ,load 两 个 周期 , 浮 点 加 法 运算 3 个 周期 。 

(1) 请 列 出 该 程序 前 面 三 遍 循 环 中 各 条 指令 的 流出 \ 开 始 执行 和 将 结果 写 到 CDB 上 的 
时 间 。 
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(2) 如 果 分 支 指令 单 流出 ,没有 采用 延迟 分 支 ,但 分 支 预测 是 完美 的 。 请 列 出 整数 部 


件 、 浮 点 部 件 、 数 据 Cache 以 及 CDB 的 资源 使 用 情况 。 


【 题 5.36】 在 基于 记分 牌 的 MIPS 处 理 器 的 基本 结构 上 ,运行 下 列 代码 ,指令 状态 表 
的 内 容 如 表 5.2 所 示 。 给 出 功能 部 件 状态 表 和 结果 寄存 器 状态 表 中 保存 的 信息 。 其 中 ,有 
一 个 整数 部 件 Integer, 两 个 乘法 部 件 Multl 和 Mult2 ,一 个 加 法 部 件 Add 和 一 个 除法 部 件 























Divide。 

LI. D F6, 34(R2) 

L.D F2, 45(R3) 

MULT.D FO0, F2, F4 

SUB.D F8, F6, F2 

DIV.D F10, FO0, F6 

RDD.D F6, F8, F2 

表 5.2 指令 状态 表 
指令 状态 表 
指 令 E = 
流出 读 操作 数 执 写 结果 

ED F6,34(R2) Vv JV NA ~ 
L.D F2, 45(R3) JV V V 
MULT.D Fo, F2,F4 V 
SUB.D F8, F6, F2 Vv 
DIV.D F10, Fo, F6 Jv 
ADD.D F6, F8, F2 














【 题 5. 37】 假设 浮 点 流水 线 中 各 部 件 的 延迟 如 下 : 加 法 需 两 个 时 钟 周期 ,乘法 需 10 个 


时 钟 周 期 .除法 需 40 个 时 钟 周期 。 运 行 下 列 代码 段 : 


EB F6, 34(R2) 
ED F2, 45(R3) 
MILT.D ~ FO0, F2, F4 
SUB.D F8, F6, F2 
DIV.D F10, FO0, F6 
ADD.D F6, F8, F2 


在 记分 牌 算法 中 ,给 出 MULT. D 准备 写 结果 之 前 的 记分 牌 状态 。 其 中 ,有 一 个 整数 部 
件 Integer, 两 个 乘法 部 件 Multl 和 Mult2, 一 个 加 法 部 件 Add 和 一 个 除法 部 件 Divide。 


题 解 


1. 概念 题 


【是 5. 1】 解释 下 列 名 词 
指令 级 并 行 





简称 ILP。 是 指 指令 之 间 存 在 的 一 种 并 行 性 ,利用 它 , 计 算 机 可 以 并 行 
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执行 两 条 或 两 条 以 上 的 指令 。 
IPC 一 一 Instructions Per Cycle 的 缩写 。 每 个 时 钟 周期 完成 的 指令 条 数 。 
循环 级 并 行 性 一 一 循环 的 不 同 迭 代 之 间 存 在 的 并 行 性 。 
指令 的 动态 调度 一 一 是 指 在 保持 数据 流 和 异常 行为 的 情况 下 ,通过 硬件 对 指令 执行 顺 
序 进行 重新 安排 ,减少 数据 相关 导致 的 停顿 。 
指令 的 静态 调度 一 一 指 依靠 编译 器 对 代码 进行 静态 调度 ,以 减少 相关 和 冲突 。 它 不 是 
在 程序 执行 的 过 程 中 ,而 是 在 编译 期 间 进行 代码 调度 和 优化 的 。 
不 精确 异常 一 一 指 当 执行 指令 i 导致 发 生 异 常 时 ,处 理 机 的 现场 (状态 ) 与 严格 按 程序 
顺序 执行 时 指令 i 的 现场 不 同 。 不 精确 异常 使 得 在 异常 处 理 后 难以 接着 继续 执行 程序 。 
精确 异常 一 一 指 当 执行 指令 i 导致 发 生 异 常 时 ,处 理 机 的 现场 跟 严格 按 程序 顺序 执行 
时 指令 i 的 现场 相同 。 
CDB 一 一 公共 数据 总 线 。 
BHT 一 一 分 支 历史 表 。 用 来 记录 相关 分 支 指令 最 近 一 次 或 几 次 的 执行 情况 是 成 功 还 
是 失败 ,并 据 此 进行 预测 。 
分 支 目标 缓冲 一 一 是 一 种 动态 分 支 预测 技术 。 将 执行 过 的 成 功 分 支 指令 的 地 址 以 及 预 
测 的 分 支 目 标 地 址 记录 在 一 张 硬件 表 中 。 在 每 次 取 指 令 的 同时 ,用 该 指令 的 地 址 与 表 中 所 
有 项 目的 相应 字段 进行 比较 ,以 便 尽 早 知道 分 支 是 否 成 功 ,尽早 知道 分 支 目 标 地 址 ,达到 减 
少 分 支 开 销 的 目的 。 
ROB 一 一 ReOrder Buffer。 前 瞻 执 行 缓冲 器 。 
超标 量 一 一 一 种 多 指令 流出 技术 。 它 在 每 个 时 钟 周 期 流出 多 条 的 指令 ,但 指令 的 条 数 
固定 , 依 代码 的 具体 情况 而 定 ,但 有 个 上 限 。 
超 流水 一 一 在 一 个 时 钟 周期 内 分 时 流出 多 条 指令 。 
超 长 指令 字 一 一 一 种 多 指令 流出 技术 。VLIW 处 理 机 在 每 个 时 钟 周期 流出 的 指令 条 数 
是 固定 的 ,这 些 指令 构成 一 条 长 指令 或 者 一 个 指令 包 , 在 这 个 指令 包 中 ,指令 之 间 的 并 行 性 
是 通过 指令 显 式 地 表示 出 来 的 。 


eal 





2. 填空 题 

【 题 5. 2〗 答 : 动态 开发 .静态 开发 

【 题 5. 3〗】 答 : 基本 程序 块 

【 题 5. 4】 答 : 记分 牌 方法 `Tomasulo 算法 
【 题 5.5〗 答 : 写 结果 、 指 令 确认 

【 题 5.6】 答 : 乱 序 、 程 序 顺序 

【 题 5.7】 答 : 保留 站 的 编号 .ROB 

【 题 5. 8〗 答 : 编译 器 .数据 相关 

【 题 5.9】 答 : 转移 历史 ,方向 

【 题 5.10】 答 : 超标 量 、 超 长 指令 字 VLIW 
3. 问答 题 


【是 5.11】 答 : 开发 ILP 的 途径 有 两 种 ,一 种 是 资源 重复 ,重复 设置 多 个 处 理 部 件 ,让 
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它们 同时 执行 相 邻 或 相近 的 多 条 指令 ; 另 一 种 是 采用 流水 线 技术 ,使 指令 重 琶 并 行 执行 。 

【 题 5.12】 答 : 最 关键 的 两 个 属性 是 : 数据 流 和 异常 行为 。 

保持 异常 行为 是 指 : 无 论 怎么 改变 指令 的 执行 顺序 ,都 不 能 改变 程序 中 异常 的 发 生 情 
况 。 即 原来 程序 中 是 怎么 发 生 的 ,改变 执行 顺序 后 是 怎么 发 生 的 。 这 个 条 件 经 常 被 弱化 为 : 
指令 执行 顺序 的 改变 不 能 导致 程序 中 发 生 新 的 异常 。 

数据 流 是 指数 据 值 从 其 产生 者 指令 到 其 消费 者 指令 的 实际 流动 。 

【 题 5. 13〗】 答 : 优点 : 能 够 处 理 一 些 编译 时 情况 不 明 的 相关 ,并 能 简化 编译 器 ; 
@ 能 够 使 本 来 是 面向 某 一 流水 线 优化 编译 的 代码 在 其 他 动态 调度 的 流水 线 上 也 能 高 效 地 
执行 。 

但 动态 调度 的 这 些 优点 是 以 硬件 复杂 性 的 显著 增加 为 代价 的 。 

【 题 5.14】 答 : 

(1) 指令 状态 表 : 记录 正在 执行 的 各 条 指令 已 经 进入 到 了 哪 一 段 。 

(2) 功能 部 件 状 态 表 : 记录 各 个 功能 部 件 的 状态 。 每 个 功能 部 件 有 一 项 ,每 一 项 由 9 个 
字段 组 成 。 

(3) 结果 寄存 器 状态 表 Result: 每 个 寄存 器 在 该 表 中 有 一 项 ,用 于 指出 哪个 功能 部 件 
(编号 ) 将 把 结果 写 人 该 寄存 器 。 

【 题 5.15】 答 : 其 核心 思想 是 : 记录 和 检测 指令 相关 ,操作 数 一 旦 就 绪 就 立即 执行 ， 
把 发 生 RAW 冲突 的 可 能 性 减 小 到 最 少 ; @ 通 过 寄存 器 换 名 来 消除 WAR 冲突 和 WAW 冲 
突 。 寄 存 器 换 名 是 通过 保留 站 来 实现 , 它 保 存 等 待 流出 和 正在 流出 指令 所 需要 的 操作 数 。 

基本 思想 : 只 要 操作 数 有 效 , 就 将 其 取 到 保留 站 ,避免 指令 流出 时 才 到 寄存 器 中 取 数 
据 , 这 就 使 得 即将 执行 的 指令 从 相应 的 保留 站 中 取得 操作 数 ,而 不 是 从 寄存 器 中 。 指 令 的 执 
行 结果 也 是 直接 送 到 等 待 数据 的 其 他 保留 站 中 去 。 因 而 ,对 于 连续 的 寄存 器 写 , 只 有 最 后 一 
个 才 真 正 更 新 寄存 器 中 的 内 容 。 一 条 指令 流出 时 ,存放 操作 数 的 寄存 器 名 被 换 成 为 对 应 于 
该 寄存 器 保留 站 的 名 称 (编号 ) 。 

【 题 5.16】 答 : 从 指令 队列 的 头 部 取 一 条 指令 。 如 果 该 指令 的 操作 所 要 求 的 保留 站 有 
空闲 的 ,就 把 该 指令 送 到 该 保留 站 ( 设 为 r)。 并 且 , 如 果 其 操作 数 在 寄存 器 中 已 经 就 绪 , 就 
将 这 些 操 作 数 送 入 保留 站 r。 如 果 其 操作 数 还 没有 就 绪 , 就 把 将 产生 该 操作 数 的 保留 站 的 
标识 送 入 保留 站 r。 另 外 ,还 要 完成 对 目的 寄存 器 的 预约 工作 ,将 其 设置 为 接受 保留 站 的 
结果 。 

【 题 5.17〗 答 : 

(1) 冲突 检测 逻辑 和 指令 执行 控制 是 分 布 的 (通过 保留 站 和 CDB 实现 ) 。 

每 个 功能 部 件 的 保留 站 中 的 信息 决定 了 什么 时 候 指令 可 以 在 该 功能 部 件 开 始 执行 。 如 
果 有 多 条 指令 已 经 获得 了 一 个 操作 数 , 并 同时 在 等 待 同一 运算 结果 ,那么 这 个 结果 一 产生 ， 
就 可 以 通过 CDB 同时 播送 给 所 有 这 些 指令 ,使 它们 可 以 同时 执行 。 

(2) 消除 了 WAW 冲突 和 WAR 冲突 导致 的 停顿 。 

这 是 通过 使 用 保留 站 进行 寄存 器 换 名 ,并 且 在 操作 数 一 旦 就 绪 就 将 其 放 和 人 保留 站 来 实 
现 的 。 

【 题 5. 18〗 答 : 目的 有 两 个 : 预测 分 支 是 否 成 功 和 尽快 找到 分 支 目 标 地 址 (或 指令 )， 
从 而 避免 控制 相关 造成 流水 线 停顿 。 
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需要 解决 两 个 关键 问题 : 四 如 何 记录 分 支 的 历史 信息 ; 四 如 何 根据 这 些 信息 来 预测 分 
支 的 去 向 ,甚至 提前 取出 分 支 目标 处 的 指令 。 
【是 5.19】 答 : 流水 线 3 个 阶段 所 进行 的 相关 操作 如 图 5. 1 所 示 。 



















































































当前 PC 值 
送 存储 器 和 BTB 
IF 段 
BTB 中 存在 匹配 的 项 ? 
是 以 BTB 的 第 三 字段 作为 
分 支 目标 地 址 送 给 PC 
1D 段 4 正常 执行 指令 
人 te 
i 
将 其 PC 值 和 分 支 目 i 分 支 预测 正确 ， 
EX 段 < 标 地 址 写 入 BTB 中 ，| | 一 个 分 支 ( 即 失败 处 ) 继续 执行 后 继 指 
人 取 指令 。 从 BTB 中 出 令 ， 指令 天 不 全 
除 相 应 的 项 出 现 停顿 
图 5.1 流水 线 3 个 阶段 所 进行 的 相关 操作 
【 题 5.20】 答 ， 


(1) 动态 分 支 预测 。 用 来 选择 后 续 执行 的 指令 。 

(2) 在 控制 相关 的 结果 尚未 出 来 之 前 ,前 瞻 地 执行 后 续 指 令 。 

(3) 用 动态 调度 对 基本 块 的 各 种 组 合 进行 跨 基本 块 的 调度 。 

【 题 5.21】 答 : 

(1) 指令 类 型 : 指出 该 指令 是 分 支 指令 、store 指令 或 寄存 器 操作 指令 。 

(2) 目的 地 址 : 给 出 指令 执行 结果 应 写 入 的 目的 寄存 器 号 (如 果 是 load 和 ALU 指令 ) 
或 存储 器 单元 的 地 址 (如 果 是 store 指令 ) 。 

(3) 数据 值 字段 : 用 来 保存 指令 前 瞻 执 行 的 结果 ,直到 指令 得 到 确认 。 

(4) 就 绪 字段 : 指出 指令 是 否 已 经 完成 执行 并 且 数 据 已 就 绪 。 

【 题 5.22】 答 : 这 一 阶段 对 分 支 指 令 、store 指令 以 及 其 他 指令 的 处 理 不 同 。 

(1) 对 于 除 分 支 指 令 和 store 指令 以 外 的 指令 来 说 , 当 该 指令 到 达 ROB 队列 的 头 部 而 
且 其 结果 已 经 就 绪 时 ,就 把 该 结果 写 入 该 指令 的 目的 寄存 器 ,并 从 ROB 中 删除 该 指令 。 

(2) 对 store 指令 的 处 理 与 (1) 类 似 ,只 是 它 是 把 结果 写 和 人 存储 器 。 

(3) 当 预 测 错误 的 分 支 指令 到 达 ROB 队列 的 头 部 时 ,就 表示 是 错误 的 前 瞻 执 行 。 这 时 
要 清空 ROB, 并 从 分 支 指令 的 另 一 个 分 支 重 新 开始 执行 。 

(4) 当 预 测 正确 的 分 支 指令 到 达 ROB 队列 的 头 部 时 ,该 指令 执行 完毕 。 

【 题 5.23】 答 : 

(1) 超标 量 结构 对 程序 员 是 透明 的 ,处 理 机 能 自己 检测 下 一 条 指令 是 否 能 流出 ,不 需要 
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由 编译 器 或 专门 的 变换 程序 对 程序 中 的 指令 进行 重新 排列 。 

(2) 即使 是 没有 经 过 编译 器 针对 超标 量 结构 进行 调度 优化 的 代码 或 是 旧 的 编译 器 生成 
的 代码 也 可 以 运行 ,当然 运行 的 效果 不 会 很 好 。 

【 题 5.24】 答 : 

(1) 程序 所 固有 的 指令 级 并 行 性 。 

(2) 硬件 实现 上 的 困难 。 多 流出 的 处 理 器 需要 大 量 的 硬件 资源 , 随 着 每 个 时 钟 周 期 流 
出 指令 数 的 增加 ,所 需 的 硬件 成 正比 例 地 增长 ,所 需 的 存储 器 带宽 和 寄存 器 带宽 也 大 大 增加 
了 ,这 样 的 带宽 要 求 必然 导致 大 量 增加 硅 片 面积 ,加 大 面积 就 导致 时 钟 频率 下 降 、 功 耗 增加 、 
可 靠 性 降低 等 一 系列 问题 。 

(3) 超标 量 和 超 长 指令 字 处 理 器 固有 的 技术 限制 。 


4. 应 用 题 


【 题 5. 25】 


解 : I LOAD Ri1,M(A) 
I LOAD R2,M(B) 
I LOAD R3,M(C) 
I LOAD Ra,M(D) 
Is MUL  R5,R1,R2 
I ADD  R2,R3,R4 
I ADD  R2,R2,R5 


【 题 5. 26】 

解 : (1) 指令 I 和 I 之 间 有 RAW 相关 ,1 和 了 之 间 有 RAW 相关 ,D 和 了 之 间 有 WAW 
相关 ,0 和 了 之 间 还 有 WAR 相关 。 

(2) 对 站 和 了 之 间 的 WAR 相关 ,可 用 定向 传送 解决 。 根 据 寄存 器 重 命名 技术 ,对 引起 
RAW 相关 的 下 中 的 R ,对 引起 WAW 相关 的 中 的 Ri ,可 分 别 换 成 备用 寄存 器 Rs 、Ri 。 
经 寄存 器 重 命名 后 ,程序 代码 段 实际 执行 时 变 为 : 


五 RDD R1,R2,R4 
TI RDD R2',R1,1 
LE SUB R1',R4,R5 
【是 5. 27】 


解 : (1) 程 序 执 行 的 CPI = 没有 分 支 的 基本 CPI(1) 十 分 支 带 来 的 额外 开销 
分 支 带 来 的 额外 开销 是 指 在 分 支 指令 中 ,缓冲 命中 但 预测 错误 带 来 的 开销 与 缓冲 没有 
命中 带 来 的 开销 之 和 。 
分 支 带 来 的 额外 开销 二 15% XX (90% 命 中 X10% 预 测 错 误 X4 十 10% 没 命中 X3) 二 0. 099 
所 以 ,程序 执行 的 CPI 二 1 十 0. 099 一 1. 099。 
(2) 采用 固定 的 两 个 时 钟 周期 延迟 的 分 支 处 理 CPI=1 二 15%X2==1.3 
由 (1)(2) 可 知 分 支 目 标 缓冲 方法 执行 速度 快 。 
【 题 5. 28】 
解 : 设 每 条 无 条 件 转移 指令 的 延迟 为 +, 则 有 : 
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1 二 6% 元 二 11 
工 一 2 
当 分 支 目 标 缓冲 命中 时 ,无 条 件 转移 指令 的 延迟 为 0。 
所 以 ,程序 的 CPI==1 二 2X5%X(1 一 90%)=1.01 
【 题 5. 29】 
解 : (1) 表 5.3 一 表 5.5 给 出 了 当 采 用 Tomasulo 算法 时 ,在 上 述 给 定 的 时 刻 , 保 留 站 、 
load 缓冲 器 以 及 寄存 器 状态 表 中 的 内 容 。 标 志 Addl 表示 是 第 一 个 加 法 功能 部 件 ,Multl 
表示 是 第 一 个 乘法 功能 部 件 , 其 余 以 此 类 推 。 


表 5.3 指令 执行 状态 














指令 执行 状态 
指 令 
流出 执行 写 结果 
ED F6, 34(R2) ~ V 
玖 于 F2, 45(R3) V 





MUL.D  F0，F2，F4 
SUB.D F8, F2, F6 
DIV.D F10, FO0, F6 
ADD.D Fé6, F8, F2 




















| 如 | 二 | 且 | 宝 


表 5.4 保留 站 的 内 容 





















































保留 站 内 容 
名 称 
Busy Op Vi Vk Qi Qk A 
Loadl no 
Load2 yes LD 45 十 Regs[R3] 
Addl yes SUB.D Mem[ 34+ Regs[R2]] Load2 
Add2 yes ADD.D Addl Load2 
Add3 no 
Multl yes MUL.D Regs[F4] Load2 
Mult2 yes DIV.D Mem[34 十 Regs[R2]] Multl 
表 5.5 寄存 器 状态 表 中 的 内 容 
寄存 器 状态 
加 FO F2 F4 F6 F8 F10 wa. F30 
Qi Multl Load2 Add2 Addl Mult2 


























(2) MUL. D 指令 准备 写 结果 时 各 状态 表 的 内 容 如 表 5.6 一 表 5. 8 所 示 。 
这 里 ,由 于 ADD. D 指令 与 DIV. D 指令 的 WAR 冲突 已 经 消除 .ADD. D 可 以 先 于 
DIV.D 完成 并 将 结果 写 入 F6 ,不 会 出 现 错误 。 
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表 5.6 指令 状态 表 的 内 容 
指令 状态 表 
指 令 
流出 执行 写 结果 
也 号 F6, 34(R2) J V Vv 
ED F2, 45(R3) V 以 V 
MUL.D Fo, F2, F4 尽 V. 
SUB.D F8, F6, F2 ~ JV V 
DIV.D ”Fl0, F0,，F6 V 
ADD.D  F6, F8, F2 ~ ~V JV 
表 5.7 保留 站 的 内 容 
保留 站 
名 称 
Busy Op Vi VEk Qj Qk A 
Loadl no 
Load2 no 
Addl no 
Add2 no 
Add3 no 
Multl yes |MUL.D| Mem[45+Regs[R3]] | Regs[F4] 
Mult2 yes DIV.D MEM[34 十 RegsLR2]] | Multl 
表 5.8 寄存 器 状态 表 
统 寄存 器 状态 表 
FO F2 F4 F6 F8 F10 “ F30 
Qi Multl Mult2 
【 题 5. 30】 


解 : 状态 表 的 内 容 如 表 5.9 一 表 5. 11 所 示 。 这 时 指令 SUB. D 尽管 已 经 执行 完毕 ,但 
需要 等 到 MUL. D 得 到 确认 后 才能 确认 。 


表 5.9 保留 站 的 内 容 


















































保留 站 
名 称 
Busy Op Vi Vk Qi Qk | Dest A 

Load1 no 

Load2 no 

Addl no 

Add2 no 

Add3 no 

Multl no |MUL.D| Mem[45 十 Regs[R3]] | Regs[F4] #3 

Mult2 | yes | DIV.D Mem[34+Regs[R2]] | #3 #5 
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表 5.10 ROB 
ROB 
项 号 
Busy 指令 状态 目的 Value 
和 no DD F6, 34(R2) 确认 F6 Mem[34 十 Regs[R2]] 
2 no 下 F2, 45(R3) 确认 F2 Mem[45 十 Regs[R3]] 
3 yes MUL.D Fo, F2,F4 写 结果 Fo #2XRegs[LF4] 
4 yes SUB.D Fs8, F6, F2 写 结果 F8 间 1 一 间 2 
5 yes DIV.D ”F10, F0, F6 | 执行 F10 
6 yes ADD.D Fé6, F8, F2 写 结果 F6 井 4 十 井 2 
表 5.11 浮 点 寄存 器 状态 
浮 点 寄存 器 状态 

字 有 段 

FO F2 F4 F6 F8 F10 多 F30 
ROB 项 编号 3 6 4 5 

Busy yes no no yes yes yes Doe no 

【是 5. 31】 
解 : (1) 
起 :二 F2, 0(R1) :| 
Stall 
MUT.D F4, F2, FO 2 
L.D F6, 0(R2) 3 
Stall 
Stall 
RDD.D F6, F4, F6 4 
Stall 
Stall 
S. D F6, O[R2] :1 
DADDIU R1, R1, #8 6 
DADDIU R2, R2, #8 7 
DSUBIU R3, Rl1, #DONE 8 
BNEZ R3, FOO 9 


所 以 ,共有 14 个 时 钟 周期 ,其 中 有 5 个 空转 周期 。 
(2) 循环 顺序 展开 4 次 ,不 进行 任何 指令 调度 , 则 指令 1 一 5 及 其 间 的 stall 都 是 必要 的 ， 
只 是 指令 6 一 9 只 需 执行 一 次 ,因此 ,共有 10X4 十 4 一 44 个 时 钟 周期 ,计算 出 4 个 Y 值 ,所 以 
计算 一 个 Y 值 需要 11 个 时 钟 周期 ,加 速 比 为 : 14/11=1. 27。 加 速 主 要 是 来 自 减少 控制 开 
销 , 即 减少 对 R1、R2 的 整数 操作 以 及 比较 、 分 支 指令 而 来 的 。 
(3) 循环 顺序 展开 4 次 ,优化 和 调度 指令 ,如 下 。 


L.D 
L.D 
L.D 
L.D 
MUT.D 


F2, 0O(R1) 
F8, 8(R1) 
F14, 16(R1) 
F20, 24(R1) 
F4, F2, FO0 
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MUT.D F10, F8, FO 
MUT.D F16, F14, FO 
MUT.D F22, F20, FO 
L.D F6, 0(R2) 
EB F12, 8(R2) 
L.D F18, 16(R2) 
L.D F24, 24(R2) 
ADD.D F6, F4, F6 
ADD.D F12, F10, F12 
ADD.D F18, F16, F18 
ADD.D F24, F22, F24 
S. D F6, O[R2] 

S. D F12, 8[R2] 
FE F18, 16[R2] 

S. D F24, 24[R2] 
DADDIU RI1, Rl, #32 
DADDIU  R2, R2, #32 
DSUBIU  R3, Rl, #DONE 
BNEZ R3, FOO 


共用 了 24 个 时 钟 周期 , 则 计算 一 个 Y 值 平均 需要 24/4==6 个 时 钟 周期 。 


加 速 比 : 14/6 一 2. 33 
(4) 状态 表 的 内 容 如 表 5. 12 一 表 5.15 所 示 。 


表 5.12 指令 执行 时 钟 










































































指令 执行 时 钟 
指 令 
流出 执行 写 结果 确认 
L. D F2, 0CR1) 1 2 3 4 
MUL.D F4, F2, FO 2 4 6 
和 F6, 0(R2) 3 4 7 
ADD.D Fé6, F4, F6 4 8 10 
Ss.D F6, 0(R2) 5 12 13 
DADDIU RI1, Rl, #8 6 7 
DADDIU R2, R2, #8 7 
DSUBIU R3,R]1,#DONE 8 10 
BNEZ R3, FOO 9 10 
LD F2, 0(R1) 10 11 13 14 
MUL.D F4, F2, FO i 13 14 15 
L.D F6, 0(R2) 12 13 15 16 
ADD.D  F6，F4，F6 13 这 18 19 
SD F6, 0(R2) 14 20 21 22 
DADDIU RI]1, Rl, #8 15 16 17 
DADDIU R2, R2, #8 16 wy 18 
DSUBIU R3,R1l,#DONE 17 18 19 
BNEZ R3, FOO 18 
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表 5.13 保留 站 
保留 站 
名 称 
Busy Op Vi Vk Qi Qk Dest A 
Addl yes ADD.D | Regs[F4] |Regs[F6 ] 
Add2 no 
Add3 no 
Multl yes 
Mult2 no 
表 5.14 ROB 
ROB 
项 号 
Busy 指令 状态 目的 Value 
让 yes ADD.D  F6,F4,F6 | 执行 | F6 Regs[F4] 十 Regs[F6] 
2 yes BD F6, 0(R2) 流出 Mem[0+Regs[R2]] | #2 
表 5.15 浮 点 寄存 器 状态 
浮 点 寄存 器 状态 
字 有 段 
FO F2 F4 F6 F8 F10 0 F30 
ROB 项 编号 ! 
Busy yes see 
(5) 时 钟 周期 数 如 表 5. 16 所 示 。 
表 5.16 时 钟 周 期 数 
整数 指令 浮 点 指令 时 钟 周期 数 
L. D F2,0(R1) 烛 
L.D F8, 8(R1) 2 
L. D Fl4, 16(R1) MUT.D F4, F2, FO 3 
L. D F20, 24(R1) MUT.D Fl10, F8, FO 4 
L. D F6,0(R2) MUT.D Fl16, Fl4, FO 5 
L. D Fl2, 8(R2) MUT.D F22, F20, FO 6 
L. D Fl8, 16(R2) ADD.D Fé6, F4, F6 党 
L. D F24, 24(R2) ADD.D Fl2, F10, Fl2 8 
DADDIU RI1, Rl1l, #32 ADD.D Fl8, F16, Fl8 9 
S. D Fé6,0(R2) ADD.D F24, F22, F24 10 
S. D Fl2, 8(R2) 1 
S. D Fl18,16(R2) 12 
S. D F24, 24(R2) 13 
DADDIU R2, R2, #32 14 
DSUBIU R3, Rl, # DONE 15 
BNEZ R3, FOO 16 
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计算 一 个 Y 值 需要 16/4 二 4 个 时 钟 周期 ,加 速 比 ==14/4 二 3. 5。 
(6) 循环 展开 和 指令 调度 如 表 5. 17 所 示 。 


表 5.17 循环 展开 和 指令 调度 



































访 存 1 访 存 2 浮 点 指令 1 浮 点 指令 2 整数 指令 
L. DF2, 0(R1) |L. DF8, 8(R1) I 
L. DF14, 16(R1) |L. DF20, 24(R1) 2 
L. DF6, 0(R2) |L. DF12, 8(R2) |MUT ed Den 
F2, FO F8, FO 
L. DF18, 16(R2) |L. DF24, 24(R2) en Bi died 4 
F14, FO FO 
ADD. DF6, | ADD. DF12, E 
F4, F6 F10, F12 
ADD. DF18, | ADD. DF24, DADDIU R1, R1, | 
F16, F18 F22, F24 #32 
DADDIU R2, R2, ， 
#32 
DSUBIUR3, RI, 。 
#DONE 
BNEZR3, FOO 9 
S. DF6, -32(R2) |S. DF12, -24(R2) 10 
S. DF18,-16(R2) |S. DF24, -8(R2) 11 














计算 一 个 Y 值 需 要 11/4 个 时 钟 周期 ,加 速 比 =14/(11/4) 二 56/11。 


【 题 5. 32】 


解 : (1) 指令 调度 情况 如 表 5. 


第 一 路 


18 所 示 。 


表 5.18 指令 调度 (1) 








LW R4, (R5) 





LW R7，(CR8) 











DADD R9, R4, R7 


LD 


R10, (R11) 





DMUL R12, R13, R14 





DSUB R2, R3, R1 


SW R15, (R2) 





DMUL R21, R4, R7 


SW R23, (R22) 











SW R21, (R24) 
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(2) 指令 调度 情况 如 表 5. 19 所 示 。 


表 5.19 指令 调度 (2) 


第 一 路 


第 二 路 





LW R4, (R5) 


LW R7, (R8) 











DADD R9, R4, R7 


LD R10, (R11) 





DMUL R12, R13, R14 


DSUB R2, R3, R1 





SW R15, (R2) 


DMUL R21, R4, R7 





SW R23, (R22) 





SW R21, (R24) 


(3) 指令 调度 情况 如 表 5. 20 所 示 。 


第 一 路 





表 5.20 指令 调度 (3) 


第 二 路 





LW R4，(R5) 


LW R7，(CR8) 





DSUB R2，R3，R1 


LD R10, (R11) 





SW R23, (R22) 


DMUL R12, R13, R14 





DADD R9, R4, R7 


DMUL R21, R4, R7 





SW R15, (R2) 





SW R21, (R24) 


【 题 5. 33】 





解 : 标量 流水 处 理 机 的 时 空 图 如 图 5. 2 所 示 。 


人 
执行 








分 析 














取 指 






































14 时 间 


5.2 标量 流水 处 理 机 


执行 完 12 条 指令 需 Ti 二 14At。 

超标 量 流水 处 理 机 与 超 长 指令 字 处 理 机 的 时 空 图 如 图 5. 3 所 示 。 

超标 量 流水 处 理 机 中 ,每 一 个 时 钟 周期 同时 启动 4 条 指令 。 执 行 完 12 条 指令 需 T= 
5At, 相 对 于 标量 流水 处 理 机 的 加 速 比 为 : 





超 长 指令 字 处 理 机 中 ,每 4 条 指令 组 成 一 条 长 指令 , 共 形 成 3 条 长 指令 。 执 


Th 


济 二 T, 5At 


指令 需 Ts 一 5At, 相 对 于 标量 流水 处 理 机 的 加 速 比 为 : 


_T_1MA_ 


3 一 元 一 5At 


2.8 


超 流水 处 理 机 的 时 空 图 如 图 5.4 所 示 。 


行 完 12 条 
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-1 
Lh -下 
执行 
| 执行 执行 | 
4 口 二 | 
分 析 | | 三 站 | 分 析 | 
! 取 指 1 分 析 1 
-4- 5 时间 | | ， 
| 二 A 二 | 
超 长 指令 字 处 理 机 时 空 图 Fi 
取 指 长 指令 字 
取 指 t 
a se | 
5 时 间 了 1 1 1 加 
超标 量 处 理 机 时 空 图 4 5 5.75 时间 
图 5.3 超标 量 流水 处 理 机 与 超 长 指令 字 处 理 机 的 时 空 图 图 5.4 超 流水 处 理 机 的 时 空 图 


超 流 水 处 理 机 中 ,每 1/4 个 时 钟 周期 启动 一 条 指令 。 执 行 完 12 条 指令 需 Ti 一 5.75At， 
相对 于 标量 流水 处 理 机 的 加 速 比 为 : 
_T_ la 


= TT, 5.75At 





= 2.435 


【 题 5. 34】 
解 : (1) 指令 D LE 间 有 寄存 器 Ro 的 WAR 相关 ; 
指令 1 .5 间 有 寄存 器 Rs 的 WAR 相关 ; 
指令 1 、I 间 有 寄存 器 R 的 RAW 相关 ; 
指令 1、I 间 有 寄存 器 Rs 的 WAW 相关 。 
(2) 采用 顺序 发 射 顺序 完成 调度 方法 的 流水 线 时 空 图 如 图 5.5 所 示 。 





















































5.5 流水 线 时 空 图 


从 时 空 图 看 到 ,执行 这 个 程序 共用 130ns。 

【 题 5. 35】 

解 : (1) 执行 时 ,该 循环 将 动态 展开 ,并 且 只 要 可 能 就 流出 两 条 指令 。 从 表 5. 21 中 可 以 
看 出 ,每 3 个 时 钟 周 期 就 执行 一 个 新 循环 ,每 个 循环 5 条 指令 ,因此 其 IPC 为 : 5/3 一 1. 67。 
虽然 指令 的 流出 率 比较 高 ,但 是 执行 效率 并 不 是 很 高 .16 拍 共 执行 15 条 指令 ,平均 指令 执 
行 速度 为 15/16 王 0.94 条 / 拍 。 
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表 5.21 基于 Tomasulo 算法 的 双流 出 超标 量 流水 线 中 指令 的 流出 、 执 行 和 写 CDB 的 时 间 
遍 数 指 令 流出 | 执行 | 访 存 | 写 CDB 说 明 
.| F0, 0(R1) 1 2 3 4 流出 第 一 条 指令 
1 |ADD.D F4, Fo,F2 和 8 等 待 L.D 的 结果 
§. |S D F4,0(R1) 2 3 9 等 待 ADD. D 的 结果 
等 待 ALU( 计 算 指令 S. D 的 有 效 地 址 

1 | DADDIU Rl, R1, #-8| 2 4 5 也 是 用 该 ALU) 
1 | BNE R1,R2, Loop | 3 6 等 待 DADDIU 的 结果 
| FO, 0(R1) 4 二 8 9 等 待 BNE 完成 
2 |ADD.D F4, Fo0,F2 4 |10 13 等 待 L.DD 的 结果 
3 | 六. 玫 F4,0(R1) 5 8 |14 等 待 ADD. D 的 结果 
2 | DADDIU Rl, R1l, #-8| 5 9 10 等 待 ALU 
2 | BNE R1,R2, Loop | 6 | 1 等 待 DADDIU 的 结果 
3: | D FO0, 0(R1) .| 1 a 14 等 待 BNE 完成 
3 |ADD.D F4, F0，F2 7 |.:15 18 等 待 L. D 的 结果 
3 |S;:D F4,0(R1) 8 |13 |19 等 待 ADD. D 的 结果 
3 | DADDIU Rl, Rl, #-8| 8 | 14 15 等 待 ALU 
3 | BNE R1,R2, Loop | 9 | 16 等 待 DADDIU 的 结果 











(2) 资源 使 用 情况 如 表 5. 22 所 示 。 


表 5.22 资源 使 用 情况 




































































时 钟 周期 整 型 ALU 浮 点 ALU 数据 Cache CDB 
多 Wi BD 
3 1/S.D 1/L.D 
4 1/DADDIU i/L.D 
5 1/ADD.D 1/DADDIU 
6 
7 2/L.D 
8 2/S.D 2/L.D 1/ADD.D 
9 2/DADDIU 1/S.D /LD 
10 2/ADD.D 2/DADDIU 
| 
2 iD 
13 3/S.D 3/L.D 2/ADD.D 
14 3/DADDIU 2/S.D 3/L.D 
15 3/ADD.D 3/DADDIU 
16 
Ev 
18 3/ADD.D 
19 3/S.D 
20 
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【 题 5. 36】 


解 : 功能 部 件 状 态 表 和 结果 寄存 器 状态 表 如 表 5. 23 和 表 5. 24 所 示 。 


表 5.23 功能 部 件 状态 表 













































































部 件 名 称 E 全 估 全 
Busy Op Fi Fj Fk Q Qk Rj Rk 
Integer yes LD F2 R3 no 
Multl yes MULT.D FO F2 F4 Integer no yes 
Mult2 no 
Add yes SUB.D F8 F6 F2 Integer yes no 
Divide yes DIV.D F10 FO F6 Multl no yes 
表 5.24 结果 寄存 器 状态 表 
结果 寄存 器 状态 表 
FO F2 F4 F6 F8 F10 F30 
部 件 名 称 Multl Integer Add Divide 
【 题 5. 37】 


解 : 指令 状态 表 、 功 能 部 件 状态 表 和 结果 寄存 器 状态 表 如 表 5. 25 一 表 5. 27 所 示 。 
表 5.25 指令 状态 表 






















































































指令 状态 表 
指 令 
流出 读 操 作 数 执行 写 结果 
L.D F6, 34(R2) V V ~V V 
L.D F2, 45(R3) V ~V V Vv 
MULT.D Fo, F2,F4 ~ ~ VY 
SUB.D F8, F6, F2 V ~V V/ V 
DIV.D F10, FO, F6 Vv 
ADD.D F6, F8, F2 Vv ~ Sh 
表 5.26 功能 部 件 状态 表 
功能 部 件 状态 表 
di Busy Op Fi Fj Fk Qi Qk Rj Rk 
Integer no 
Multl yes MULT.D FO F2 F4 no no 
Mult2 no 
Add yes ADD.D F6 F8 F2 no no 
Divide yes DIV.D F10 FO F6 Multl no yes 
表 5.27 结果 寄存 器 状态 表 
结果 寄存 器 状态 表 

FO F2 F4 F6 F8 F10 F30 

部 件 名 称 | Multl Add Divide 


























第 6 章 指令 级 并 行 的 开发 
一 一 软件 方法 


6.1 基本 要 求 与 难点 


6.1.1 基本 要 求 


(1) 掌握 相关 的 基本 概念 。 

(2) 掌握 循环 展开 法 和 指令 调度 的 基本 方法 。 

(3) 掌握 全 局 指令 调度 技术 : 踪迹 调度 和 超 块 调度 。 

(4) 理解 静态 多 指令 流出 : VLIW 技术 。 

(5) 理解 显 式 并 行 指令 计算 EPIC 的 概念 ,掌握 非 绑 定 分 支 .谓词 执行 和 前 瞻 执 行 等 
技术 。 

(6) 理解 能 挖掘 出 更 多 的 循环 级 并 行 的 编译 优化 技术 : 循环 携带 相关 ,存储 别名 分 析 ， 
数据 相关 分 析 。 

(7) 掌握 软 流水 技术 。 

(8) 了 解 IA-64 体系 结构 。 


6.1.2 难点 
(1) 踪迹 调度 和 超 块 调度 。 


(2) 显 式 并 行 指令 计算 EPIC 的 概念 , 非 绑 定 分 支 .谓词 执行 和 前 瞻 执 行 等 技术 。 
(3) 软 流水 技术 。 


6.2 知识 要 点 


我 们 将 编译 器 所 使 用 的 指令 级 并 行 开 发 方法 称 作 ”软件 方法 ”。 与 硬件 方法 相 比 ,由 于 
编译 时 能 够 “虚拟 ”出 一 个 很 大 的 指令 窗口 ,软件 方法 有 潜力 开发 出 更 多 的 指令 级 并 行 。 


6.2.1 基本 指令 调度 和 循环 展开 


1. 指令 调度 的 基本 方法 
为 了 充分 发 挥 流水 线 的 作用 ,必须 设法 让 它 满 负 荷 地 工作 ,这 就 要 求 充 分 开发 指令 之 间 
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存在 的 并 行 性 , 找 出 不 相关 的 指令 序列 ,让 它们 在 流水 线 上 重 秋 并 行 执行 , 这 一 工作 就 是 指 
令 调度 。 本 节 讨 论 通过 编译 器 来 开发 这 种 指令 级 并 行 的 方法 。 

编译 器 完成 指令 调度 的 能 力 受 限于 两 个 特性 : 中 程序 固有 的 指令 级 并 行 ; 思 流 水 线 功 
能 部 件 的 执行 延迟 。 在 本 节 中 ,假设 浮 点 流水 线 的 延迟 如 表 6. 1 所 示 。 


表 6.1 本 节 使 用 的 浮 点 流水 线 的 延迟 














产生 结果 的 指令 使 用 结果 的 指令 延迟 (时 钟 周 期 数 ? 
浮 点 计算 另 一 个 浮 点 计算 3 
浮 点 计算 浮 点 store(S.D) 2 
浮 点 load(L. DD) 浮 点 计算 1 
浮 点 load(L.D) 浮 点 store(S. D) 0 








编译 时 指令 调度 并 不 会 真正 消除 指令 间 的 相关 ,而 是 通过 重新 安排 指令 的 流出 顺序 ,使 
得 指令 间 的 相关 尽 可 能 少 地 引起 流水 线 空转 ,从 而 减少 整个 指令 序列 在 流水 线 上 的 执行 时 
间 。 另 一 个 需要 注意 的 地 方 是 ,按照 本 节 介 绍 的 基本 指令 调度 方法 ,指令 调度 不 能 跨越 分 支 
指令 。 

在 许多 情况 下 ,每 一 个 循环 近代 中 的 指令 条 数 不 多 ,进行 指令 调度 的 余地 很 小 。 必 须 想 
办 法 增加 每 个 循环 迭代 中 的 指令 条 数 。 循 环 展 开 (loop unrolling) 就 是 解决 这 一 问题 的 有 效 
方法 之 一 。 


2. 循环 展开 


在 前 面 讲 过 ,增加 指令 间 并 行 性 最 简单 和 最 常用 的 方法 ,是 开发 循环 级 并 行 (loop level 
parallelism) 一 一 循环 的 不 同 迭 代 之 间 存 在 的 并 行 性 。 所 谓 循环 展开 (loop unrolling) 就 是 
指 把 循环 体 的 代码 复制 多 次 并 按 顺序 排放 ,然后 相应 调整 循环 的 结束 条 件 。 通 过 循环 展开 ， 
多 个 循环 先 代 的 代码 可 以 合 到 一 起 调度 ,给 编译 器 进行 指令 调度 带 来 了 更 大 的 空间 ,而 且 还 
能 够 消除 中 间 的 分 支 指令 和 循环 控制 指令 引起 的 开销 。 

通过 循环 展开 .寄存 器 重 命名 和 指令 调度 ,可 以 有 效 地 开发 出 指令 级 并 行 。 

循环 展开 和 指令 调度 时 要 注意 以 下 几 个 方面 。 

(1) 保证 正确 性 。 在 循环 展开 和 调度 过 程 中 尤其 要 注意 两 个 地 方 的 正确 性 : 循环 控 
制 ,操作 数 偏 移 量 的 修改 。 

(2) 注意 有 效 性 。 只 有 能 够 找到 不 同 循环 体 之 间 的 无 关 性 ,才能 够 有 效 地 使 用 循环 
展开 。 

(3) 使 用 不 同 的 寄存 器 。 因 为 如 果 使 用 相同 的 寄存 器 ,或 者 使 用 较 少 数量 的 寄存 器 ,就 
可 能 导致 新 的 冲突 。 

(4) 删除 多 余 的 测试 指令 和 分 支 指 令 , 并 对 循环 结束 代码 和 新 的 循环 体 代码 进行 相应 
的 修正 。 

(5) 注意 对 存储 器 数据 的 相关 性 分 析 。 例 如 ,对 于 load 指令 和 store 指令 ,如 果 它 们 在 
不 同 的 循环 近代 中 访问 的 存储 器 地 址 是 不 同 的 ,它们 就 是 相互 独立 的 ,可 以 相互 对 调 。 

(6) 注意 新 的 相关 性 。 由 于 原 循 环 不 同 次 的 迭代 在 展开 后 都 到 了 同一 次 循环 体 中 , 因 
此 可 能 带 来 新 的 相关 性 。 
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6.2.2 跨越 基本 块 的 静态 指令 调度 


一 般 来 说 ,高 效 地 优化 含有 分 支 结构 的 循环 体 需要 在 多 个 基本 块 间 移动 指令 ,这 种 调度 
被 称 为 “全 局 指令 调度 "”。 本 节 介绍 两 种 全 局 指令 调度 技术 : 踪迹 调度 和 超 块 调度 。 


1. 全 局 指令 调度 


全 局 指令 调度 的 目标 是 在 保持 原 有 数据 相关 和 控制 相关 不 变 的 前 提 下 , 尽 可 能 地 缩短 
包含 分 支 结构 的 代码 段 的 总 执行 时 间 。 一 般 来 说 ,对 于 单 流出 流水 线 ,减少 指令 数 就 可 以 缩 
短 总 执行 时 间 ; 而 对 于 多 流出 处 理 ,只 有 减少 关键 路 径 的 长 度 才能 真正 缩短 总 执行 时 间 。 
所 谓 关 键 路 径 (critical path) ,是 指 根据 指令 间 相 关 关 系 构成 的 数据 流 图 中 延迟 最 长 的 一 条 
路 径 。 只 有 缩短 这 条 路 径 的 长 度 , 才 能 真正 减少 总 执行 时 间 。 之 所 以 要 保持 原 有 数据 相关 
和 控制 相关 不 变 , 是 为 了 保证 执行 结果 正确 。 数 据 相 关 使 得 指令 必须 依照 一 定 的 先后 顺序 
执行 ,而 控制 相关 则 限制 了 指令 在 基本 块 间 的 自由 移动 。 

尽管 前 面 介绍 的 循环 展开 技术 可 以 减少 构成 循环 的 分 支 指令 引起 的 流水 线 “ 空 转 ”, 但 
它 却 无 法 消除 循环 体内 的 分 支 指令 引起 的 流水 线 “ 空 转 ”。 而 全 局 指令 调度 技术 则 可 以 做 到 
这 一 点 , 它 的 诀窍 在 于 在 循环 体内 的 多 个 基本 块 间 移动 指令 ,从 而 扩大 那些 执行 频率 较 高 的 
基本 块 的 体积 。 显 然 , 这 种 技术 的 效果 取决 于 能 否 准确 估算 各 基本 块 的 执行 频率 。 不 过 , 即 
便 能 够 准确 估算 各 基本 块 的 执行 频率 ,全 局 指令 调度 也 无 法 保证 总 会 带 来 性 能 提升 ,而 且 它 
还 会 带 来 新 的 问题 ,影响 程序 执行 的 正确 性 。 


考虑 以 下 代码 : 
LD R4,0(R1) // 取 A 
LD R5, 0(R2) // 取 B 
DADDU ~ R4,R4,R5 //A=A+B 
SD R4, 0(R1) // 存 A 
BEQZ R4,thenpart //A=0 则 转移 
4 // 代 码 段 X, 基本 块 elsepart 
可 join 
thenpart: // 基 本 块 thenpart 
SD ,0(R2) // 指 令 工 
join 
sD ,0(R3) // 指 令 了 


有 一 些 复杂 的 调度 机 制 可 以 确保 在 调度 Ti 的 情况 下 保持 执行 结果 不 变 , 但 需要 向 基本 
块 elsepart 中 增加 若干 指令 以 保证 结果 正确 。 这 些 新 增加 的 指令 被 称 为 补偿 代码 
(compensation code) 。 不 过 这 种 调度 在 编译 实现 时 比较 复杂 ,而 且 当 BEQZ 指令 转移 不 成 
功 时 补偿 代码 的 执行 会 带 来 额外 的 时 间 开销 。 

进行 全 局 指令 调度 时 编译 器 必须 仔细 振 柄 哪些 指令 可 被 选 作 调度 的 对 象 。 选 择 的 依据 
很 简单 , 即 调度 这 条 指令 是 否 一 定 会 带 来 性 能 提升 。 例 如 ,将 指令 工 调 度 到 BEQZ 之 前 必 
须 判 断 这 种 调度 是 否 一 定 能 够 缩短 总 执行 时 间 。 答 案 是 不 一 定 , 因 为 为 了 保证 执行 结果 的 
正确 需要 增加 一 些 补偿 代 码 ,补偿 代码 的 执行 会 带 来 额外 的 时 间 开 销 。 同 样 ,调度 指令 I 时 
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也 面临 同样 的 问题 。 全 局 指令 调度 只 能 告诉 我 们 将 指令 调度 到 分 支 指令 之 前 带 来 性 能 提升 
的 概率 比较 大 。 

在 调度 指令 D 之 前 ,编译 器 需要 综合 考虑 以 下 多 个 因素 。 

(1) 该 分 支 中 基本 块 thenpart 和 elsepart 的 执行 频率 各 是 多 少 ? 如 果 thenpart 执行 得 
更 加 频繁 ,那么 调度 D 很 可 能 带 来 性 能 提升 ; 否则 ,尽管 也 可 以 调度 D ,但 调度 后 的 代码 执 
行 效率 反而 会 降低 。 

(2) 在 分 支 语句 前 完成 工 所 需 的 开销 是 多 大 ? 如 果 分 支 语 句 前 有 一 些 “ 空 转 ” 周 期 ,而 
且 工 可 以 被 调度 到 某 个 这 样 的 周期 内 执行 ,那么 所 需 的 开销 为 0。 

(3) 调度 0 是 否 能 够 缩短 thenpart 块 的 执行 时 间 ? 如 果 工 是 该 块 关 键 路 径 的 第 一 条 语 
句 , 调 度 它 可 以 减少 thenpart 块 的 执行 开销 。 

(4) 是 否 是 最 佳 的 被 调度 对 象 ? 调度 I 或 thenpart 块 内 的 其 他 指令 是 否 能 够 获得 更 
大 的 性 能 提升 ? 

(5) 若 需要 向 elsepart 块 中 增加 补偿 代码 ,补偿 代码 的 执行 开销 是 多 少 ? 怎样 生成 补 
偿 代 码 ? 

可 以 看 出 ,全 局 指令 调度 问题 非常 复杂 ,不仅 选择 哪 条 指令 作为 调度 对 象 取决 于 多 个 因 
素 ,而 且 各 条 被 调度 的 指令 往往 也 是 紧密 相关 的 。 即 便 是 确定 从 哪 条 指令 开始 进行 全 局 指 
令 调 度 也 是 一 个 十 分 复杂 的 问题 。 

为 了 简化 这 一 过 程 ,人 们 提出 了 一 些 新 的 全 局 指令 调度 技术 。 接 下 来 将 详细 讨论 其 中 
的 两 种 : 踪迹 调度 和 超 块 调度 ,它们 的 共同 之 处 在 于 将 编译 优化 的 重点 放 在 那些 执行 频率 
很 高 的 路 径 上 ,将 这 些 路 径 上 的 基本 块 拼接 在 一 起 构成 一 个 更 大 的 基本 块 并 进行 优化 。 显 
然 ,如 何 处 理 分 支 指令 是 这 些 技术 必须 解决 的 一 个 关键 问题 。 


2. 踪迹 调度 


踪迹 调度 (trace scheduling) 非 常 适合 多 流出 处 理 器 ,因为 对 于 这 些 处 理 器 而 言 ,简单 地 
进行 循环 展开 和 基本 指令 调度 很 难 开发 出 足够 的 指令 级 并 行 来 使 流水 线 保持 在 充满 状态 。 
踪迹 (trace) 是 程序 执行 的 指令 序列 ,通常 由 一 个 或 多 个 基本 块 组 成 ,trace 内 可 以 有 分 支 ,但 
一 定 不 能 包含 循环 。 踪 迹 调度 会 优化 执行 频率 高 的 trace, 减 少 其 执行 开销 。 但 由 于 需要 添 
加 补偿 代码 以 确保 正确 性 ,那些 执行 频率 较 低 的 trace 的 开销 反而 会 有 所 增加 。 可 见 , 仅 当 
不 同 trace 的 执行 频率 差别 较 大 而 且 各 条 trace 的 执行 频率 受 输 入 集 的 影响 较 小 时 ,这 种 方 
法 才能 取得 比较 好 的 效果 。 这 使 得 踪迹 调度 一 般 只 适用 于 特定 类 型 的 应 用 。 

踪迹 调度 过 程 分 为 两 步 。 第 一 步 称 为 踪迹 选择 (trace selection) ,负责 从 程序 的 控制 流 
图 中 选择 执行 频率 较 高 的 路 径 ,每 条 路 径 就 是 一 条 trace。 循 环 展开 是 生成 trace 的 常用 方 
法 之 一 , 它 主 要 处 理 控制 循环 的 分 支 指令 ,因为 在 一 般 情况 下 循环 体 的 执行 频率 会 远 远 高 于 
循环 体外 其 他 基本 块 的 执行 频率 。 至 于 其 他 分 支 指令 ,一 般 是 根据 静态 分 支 预测 的 结果 或 
是 在 典型 输入 集 下 的 执行 统计 信息 进行 处 理 , 若 转移 成 功 (或 失败 ) 的 概率 很 高 , 则 将 其 视 作 
转移 总 是 成 功 (或 失败 )。 显 然 , 进 行踪 迹 选择 时 ,我 们 只 能 考虑 转移 成 功 和 失败 的 概率 相差 
很 大 的 分 支 指令 ,而 那些 转移 成 功 和 失败 概率 接近 的 分 支 指令 ,可 以 通过 谓词 执行 技术 进行 
优化 。 

生成 trace 后 就 可 以 开始 第 二 个 步骤 了 ,这 一 步 称 为 踪迹 压缩 (trace compaction) , 即 对 
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已 生成 的 trace 进行 指令 调度 和 优化 , 尽 可 能 地 缩短 其 执行 时 间 。 进 行踪 迹 压 缩 时 采用 的 
方法 与 前 面 介绍 的 基本 指令 调度 相似 ,都 是 通过 重新 安排 trace 内 指令 的 执行 顺序 来 缩短 
总 执行 时 间 。 但 是 , 当 跨 越 trace 内 部 的 入 口 或 出 口 调度 指令 时 必须 非常 小 心 , 因 为 这 有 可 
能 改变 原 有 的 控制 相关 和 数据 相关 ,从 而 造成 执行 结果 错误 。 通 常 需要 向 trace 外 该 入 口 
的 前 驱 基 本 块 或 该 出 口 的 后 继 基 本 块 中 增加 补偿 代码 ,以 确保 执行 结果 的 正确 。 

在 踪迹 调度 中 ,由 于 选 出 的 trace 都 是 执行 频率 很 高 的 路 径 ,减少 它们 的 执行 开销 有 助 
于 缩短 程序 的 总 执行 时 间 ,这 就 是 踪迹 调度 能 够 提升 性 能 的 最 根本 原因 。 目 前 踪迹 调度 技 
术 已 经 成 功 应 用 于 对 科学 计算 程序 的 优化 中 ,这 些 应 用 中 都 包含 大 量 的 循环 ,而且 能 够 准确 
地 统计 出 程序 运行 的 行为 特征 。 


3. 超 块 调度 


在 踪迹 调度 中 ,如 果 trace 入 口 或 出 口 位 于 trace 内 部 ,编译 器 生成 补偿 代码 的 难度 将 
大 大 增加 ,而 且 编译 器 很 难 评估 这 些 补 偿 代 码 究 竟 会 带 来 多 少 性 能 损失 ,这 是 踪迹 调度 的 一 
个 重要 缺点 。 为 解决 这 个 问题 ,人 们 增加 了 对 trace 拓扑 结构 的 约束 ,将 其 限制 为 只 能 拥有 
一 个 入口 ,但 可 以 拥有 多 个 出 口 的 结构 ,这 种 新 结构 被 称 为 超 块 (superblock) 。 超 块 可 被 视 
作 一 种 扩展 的 基本 块 结构 ,显然 其 构造 过 程 与 trace 非常 相似 。 

由 于 只 有 一 个 和 人口 ,压缩 超 块 比 压缩 trace 容易 得 多 ,因为 在 压缩 超 块 时 ,只 需要 考虑 
跨越 超 块 出 口 移动 指令 的 情形 ,而 且 对 于 那些 只 有 一 个 出 口 的 计数 控制 循环 (例如 只 有 一 个 
循环 100 次 后 结束 的 for 循环 ) ,经 过 循环 展开 后 得 到 的 超 块 只 有 一 个 入 口 和 一 个 出 口 ,在 
这 样 的 超 块 中 进行 指令 调度 显然 更 加 容易 。 

与 踪迹 调度 相 比 , 超 块 调度 可 以 简化 补偿 代码 生成 过 程 ,并 降低 指令 调度 的 复杂 度 , 但 
由 于 其 结构 的 限制 (只 有 一 个 入 口 ), 超 块 结构 的 目标 代码 体积 也 会 大 大 增加 。 此 外 , 它 面 临 
着 与 踪迹 调度 相同 的 问题 一 一 补偿 代码 的 生成 使 得 编译 过 程 更 加 复杂 ,而 且 由 于 无 法 准确 
评估 由 补偿 代码 引起 的 时 间 开 销 , 这 种 方法 的 应 用 范围 受到 一 定 限制 。 

踪迹 调度 、 超 块 调度 等 全 局 指令 调度 技术 的 目的 都 是 尽 可 能 地 开发 更 多 的 指令 级 并 行 ， 
因而 更 加 适用 于 多 流出 处 理 器 。 但 多 流出 处 理 器 如 何 充 分 利用 这 些 编译 时 开发 出 的 指令 级 
并 行 呢 ? 后 面 将 详细 讨论 这 一 问题 。 


6.2.3 静态 多 指令 流出 : VLIW 技术 


超标 量 处 理 器 在 运行 时 动态 确定 指令 窗口 中 哪些 指令 可 以 被 流出 执行 ,为 此 它 必 须 准 
确 识 别 出 指 令 窗口 内 的 指令 以 及 流水 线 上 的 所 有 指令 之 间 存 在 着 哪些 相关 。 在 动态 调度 的 
超标 量 处 理 器 中 ,这 些 工作 基本 都 是 由 硬件 完成 ,而 在 静态 调度 的 超标 量 处 理 器 中 ,部 分 相 
关 检 测 和 指令 调度 工作 交 由 编译 器 完成 ,大 大 降低 了 硬件 实现 的 复杂 度 。 

与 超标 量 处 理 器 不 同 ,VLIW( 超 长 指令 字 ) 处 理 器 在 编译 时 静态 确定 哪些 指令 能 够 同 
时 流出 ,进一步 降低 了 流水 线 硬件 的 实现 复杂 度 ,这 有 助 于 提高 它 的 主 频 。VLIW 能 够 把 同 
时 流出 的 或 者 满足 特定 约束 的 一 组 操作 打包 在 一 起 ,得 到 一 条 更 长 (64 位 、128 位 或 更 长 ) 的 
指令 ,这 就 是 VLIW 名 字 的 由 来 。 每 个 操作 被 放 在 VLIW 指令 的 一 个 槽 (slob) 内 。VLIW 
处 理 器 执行 这 样 一 条 长 指令 就 相当 于 超标 量 处 理 器 同时 执行 多 条 指令 ,从 而 实现 了 多 流出 。 
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由 于 所 有 开发 指令 级 并 行 的 任务 都 交 由 编译 器 完成 ,VLIW 处 理 器 需要 更 加 “智能 ”的 编 
译 器 。 

只 有 从 应 用 程序 中 挖掘 出 足够 多 的 并 行 指令 打包 到 VLIW 指令 中 ,才能 提高 VLIW 处 
理 器 中 功能 单元 的 利用 率 ,充分 发 挥 VLIW 处 理 器 的 性 能 优势 。 使 用 6. 1 节 介 绍 的 基本 指 
令 调度 和 循环 展开 技术 以 及 6. 2 节 介 绍 的 全 局 指令 调度 技术 都 能 够 有 效 识 别 哪些 指令 可 以 
并 行 执行 。 

造成 VLIW 目标 代码 编码 效率 低 的 原因 主要 有 两 个 : 为 了 消除 流水 线 “ 空 转 ” 需 要 增 
加 循环 展开 的 次 数 ,这 增加 了 目标 代码 的 体积 ; @ 很 难 从 应 用 程序 中 找到 足够 多 的 并 行 指 
令 填 满 VLIW 指令 中 的 每 一 个 槽 。 使 用 代码 压缩 /还 原 技术 可 以 减少 VLIW 目标 代码 体积 
过 大 带 来 的 性 能 损失 : VLIW 目标 代码 被 压缩 后 保存 在 硬盘 中 ,只 保留 指令 中 非 nop 操作 
的 信息 ; 程序 运行 时 ,当代 码 被 加 载 到 指令 Cache 时 或 译 码 时 再 将 其 解压 缩 ,还 原 出 所 含 的 
nop 操作 。 

为 了 简化 硬件 实现 ,很 多 VLIW 处 理 器 中 没有 实现 任何 相关 检测 逻辑 ,而 是 靠 互 锁 机 
制 保证 执行 结果 的 正确 。 当 一 个 功能 单元 暂停 时 , 互 锁 机 制 将 暂停 整个 流水 线 , 从 而 保证 所 
有 功能 单元 的 同步 。 使 用 互 锁 机 制 的 主要 原因 是 一 些 操作 的 延迟 在 编译 时 无 法 确定 ,比如 
load 操作 ,由 于 编译 时 无 法 确定 它 访问 Cache 是 否 命中 ,因而 无 法 确定 其 延迟 。 出 于 性 能 上 
的 考虑 ,编译 时 通常 会 假定 这 类 操作 的 延迟 为 可 能 的 最 小 值 ,如 load 操作 的 延迟 是 Cache 
的 命中 时 间 。 这 样 , 若 运行 时 访问 Cache 不 命中 , 互 锁 机 制 将 暂停 整个 流水 线 ,直至 load 操 
作 完 成 。 当 VLIW 指令 中 含有 较 多 数量 的 操作 槽 且 应 用 程序 中 的 访 存 操作 较 多 时 ,这 种 简 
单 的 互 锁 机 制 将 造成 较 大 的 开销 。 现 有 的 一 些 高 性 能 VLIW 处 理 器 通常 采用 软 硬 件 结合 
的 方式 解决 这 一 问题 : 编译 器 负责 保证 同时 流出 的 操作 间 没 有 相关 ,而 流水 线 硬件 则 负责 
确保 正在 运行 的 指令 在 不 满足 上 述 同 步 约束 的 情况 下 也 能 得 到 正确 的 执行 结果 。 

目标 代码 兼容 性 差 是 VLIW 的 另 一 个 严重 缺陷 , 极 大 地 制约 了 VLIW 的 推广 与 应 用 。 
VLIW 的 指令 格式 与 操作 类 型 功能 单元 的 数量 以 及 延迟 等 体系 结构 参数 密切 相关 , 当 这 些 
参数 发 生变 化 时 ,VLIW 的 指令 格式 也 将 相应 地 发 生变 化 。 要 在 同一 系列 不 同 代 的 处 理 器 
之 间 实 现 目标 代码 兼容 ,VLIW 比 超标 量 困难 得 多 。 二 进 制 翻译 或 仿真 是 解决 VLIW 目标 
代码 兼容 问题 的 可 行 方 法 之 一 。 二 进 制 翻译 (binary translation) 是 指 将 某 个 硬件 平台 的 二 
进 制 目标 代码 翻译 为 另 一 个 平台 的 目标 代码 的 过 程 ,是 目前 在 不 同 平台 之 间 实 现 目标 代码 
兼容 的 主要 手段 之 一 。 二 进 制 翻译 可 以 在 编译 时 静态 完成 ,也 可 以 在 运行 时 动态 完成 ,是 目 
前 计算 系统 虚拟 化 研究 的 主要 内 容 之 一 。 


6.2.4 显 式 并 行 指令 计算 


超标 量 和 VLIW 是 开发 指令 级 并 行 的 两 种 极端 结构 ,前 者 完全 依赖 流水 线 硬件 动态 识 
别 出 可 并 行 的 指令 ,并 将 它们 分 发 给 相应 的 功能 单元 执行 ,后 者 则 将 指令 级 并 行 的 开发 工作 
全 部 交 给 编译 器 完成 ,在 编译 时 静态 确定 每 条 指令 的 流出 时 刻 和 执行 延迟 , 仅 依赖 简单 的 流 
水 线 硬件 确保 在 指令 实际 执行 延迟 与 编译 器 假定 的 延迟 不 一 致 时 (如 访问 Cache 不 命中 就 
会 增加 访 存 操作 的 延迟 ) ,程序 的 执行 结果 依然 正确 。 在 这 两 种 结构 中 ,单一 的 指令 级 并 行 
开发 机 制 使 得 它们 都 存在 着 严重 的 固有 缺陷 : 超标 量 结构 硬件 复杂 度 太 高 ,学术 界 和 工业 


第 6 章 ”指令 级 并 行 的 开发 一 一 软件 方法 125 





界 一 致 认为 ,同时 流出 并 执行 8 条 指令 将 达到 这 种 结构 的 极限 ; VLIW 则 面临 着 严重 的 代 
码 兼容 问题 ,而且 目前 VLIW 编译 器 的 智能 程度 远 远 无 法 满足 人 们 的 要 求 。 显 式 并 行 指令 
计算 (Explicitly Parallel Instruction Computing,EPIC) 技 术 正 是 为 了 解决 这 两 种 结构 的 本 
质 缺 陷 而 提出 的 , 它 是 在 VLIW 的 基础 上 融合 了 超标 量 结构 的 一 些 优点 而 设计 得 到 的 ,以 
期 用 有 限 的 硬件 开销 为 代价 开发 出 更 多 的 指令 级 并 行 。 

EPIC 结构 充分 利用 编译 器 和 流水 线 硬件 的 协同 能 力 开发 更 多 的 指令 级 并 行 。 编 译 器 
根据 对 程序 运行 特征 的 统计 信息 ,如 分 支 指令 转移 成 功 的 概率 .访问 Cache 命中 的 概率 等 ， 
通过 踪迹 调度 、 超 块 调度 等 带 有 极 强 猜测 性 的 编译 优化 技术 从 应 用 程序 中 尽 可 能 多 地 挖掘 
指令 级 并 行 ,流水线 硬 件 则 提供 丰富 的 计算 资源 实现 这 些 指 令 级 并 行 ,并 通过 专门 的 机 制 确 
保 在 程序 执行 过 程 中 出 现 预 测 错误 时 仍然 能 得 到 正确 的 运行 结果 ,尽量 减少 由 此 引起 的 额 
外 开销 。 

一 般 来 说 ,EPIC 结构 必须 符合 以 下 两 个 基本 特点 。 第 一 ,指令 级 并 行 主要 由 编译 器 负 
责 开 发 ,处 理 器 应 为 保证 代码 正确 执行 提供 必要 的 硬件 支持 ,只 有 在 这 些 硬件 机 制 的 辅助 下 
这 些 优化 技术 才能 高 效 完成 。 第 二 ,系统 结构 必须 提供 某 种 通信 机 制 , 使 得 流水 线 硬件 能 够 
了 解 编译 器 “安排 "好 的 指令 执行 顺序 。 但 需要 注意 的 是 ,EPIC 并 不 仅仅 是 采用 了 多 种 高 
级 编译 优化 技术 的 VLIW 结构 ,这 只 不 过 是 它 的 一 个 特征 。EPIC 的 第 二 个 特征 ,有 效 的 软 
硬件 通信 机 制 , 才 是 它 与 VLIW 之 间 的 本 质 区 别 。 

EPIC 是 在 VLIW 的 基础 上 设计 得 到 的 ,因此 它 的 指令 格式 也 与 VLIW 相似 ,编码 效率 
也 比较 低 。 特 别 是 为 了 填充 分 支 延 迟 槽 ,需要 大 量 的 分 支 无 关 操作 ,进一步 降低 了 代码 效 
率 ,而 且 随 着 处 理 器 主 频 的 提高 ,分 支 延迟 (以 时 钟 周期 为 单位 ) 越 来 越 大 ,这 一 问题 变 得 更 加 
严重 。 为 解决 这 一 问题 ,EPIC 编译 器 采用 了 多 种 高 级 优化 技术 ,如 非 绑 定 分 支 .谓词 执行 .前 
瞻 执 行 等 ,处 理 器 则 提供 必要 的 硬件 支持 ,以 保证 经 过 这 些 优化 后 的 代码 能 够 正确 执行 。 


1. 非 绑 定 分 支 


分 支 指令 在 执行 时 必须 完成 一 系列 “动作 ”: 计算 分 支 转移 条 件 、 生 成 分 支 目 标 地 址 、 取 
下 一 条 指令 . 译 码 并 流出 下 一 条 指令 。 尽 管 在 传统 指令 系统 中 ,每 一 条 分 支 指令 都 被 视 作 
“原子 的 ”而 独立 存在 ,但 它 完全 可 以 被 划分 为 多 条 粒度 更 小 的 指令 。 

非 绑 定 (unbundled) 分 支 技术 就 是 基于 这 一 思想 而 提出 的 , 它 将 一 条 分 支 指令 划分 为 3 
个 独立 的 操作 并 进行 调度 。 这 3 个 操作 是 : 准备 操作 ,计算 分 支 目 标 地 址 ; @@ 比 较 操作 ， 
计算 分 支 转移 条 件 ; @ 转 移 操作 ,根据 分 支 转移 条 件 是 true 还 是 false, 或 改变 控制 流 或 执 
行 顺序 的 下 一 条 指令 。 运 行 时 ,流水 线 硬件 根据 前 两 个 操作 的 结果 ,动态 地 将 第 三 个 操作 转 
换 为 空 操作 或 无 条 件 转移 。 显 然 ,前 两 个 操作 完成 得 越 早 ,流水 线 硬件 改变 控制 流 的 时 间 就 
越 充裕 ,分支 操作 引起 流水 线 “ 空 转 ” 的 可 能 性 就 越 小 。 例 如 ,在 得 到 转移 成 功 目标 地 址 后 ， 
指令 预 取 模块 就 可 以 提前 从 该 地 址 处 预 取 指令 ,而 在 计算 出 分 支 转移 条 件 后 ,就 可 以 确定 之 
前 进行 的 预 取 是 否 正确 ,并 进行 相应 的 处 理 。 分 支 转移 条 件 为 false 就 可 以 作废 这 次 不 必要 
的 预 取 。 


2. 谓词 执行 
当 分 支 指令 转移 成 功 的 概率 远大 于 或 远 小 于 转移 失败 的 概率 时 ,在 编译 时 静态 预测 这 
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些 分 支 指令 的 行为 相对 容易 一 些 ,此 时 可 以 通过 循环 展开 和 全 局 指令 调度 技术 扩大 基本 块 
的 体积 ,以 便 开发 更 多 的 指令 级 并 行 。 若 分 支 指令 转移 成 功 与 失败 的 概率 比较 接近 ,或 是 分 
支 指令 的 行为 受 输入 集 影响 很 大 ,这 些 编译 优化 技术 的 效果 就 没有 那么 好 了 ,控制 相关 将 成 
为 限制 指令 级 并 行 开发 的 主要 原因 ,谓词 执行 技术 能 够 很 好 地 解决 这 一 问题 。 

谓词 执行 是 一 种 特殊 的 条 件 执行 机 制 。 所 谓 条 件 执行 ,是 指 指令 的 执行 依赖 于 一 定 的 
条 件 , 当 条 件 为 真 时 指令 将 正常 执行 ,否则 将 什么 也 不 做 。MIPS、PowerPC、SPARC、x86 等 
很 多 处 理 器 都 实现 了 条 件 传输 指令 ,这 条 指令 就 是 按 条 件 执行 的 ,只 有 在 执行 条 件 为 真 时 才 
会 进行 数据 传输 。 分 支 转移 条 件 是 最 常见 的 一 种 指令 执行 条 件 , 在 “if-then-else” 分 支 结 构 
中 , 若 分 支 转移 条 件 为 真 ,将 执行 then 部 分 的 指令 ,else 部 分 的 指令 根本 不 会 被 读 出 。 但 在 
条 件 执行 机 制 下 ,无 论 指令 的 执行 条 件 是 否 为 真 ,指令 都 将 被 读 出 、 译 码 并 执行 ,这 是 二 者 之 
间 最 重要 的 区 别 。 

借助 条 件 传输 指令 ,可 以 将 分 支 指令 引起 的 控制 相关 转换 为 相对 于 分 支 转移 条 件 (R1) 
的 数据 相关 。 对 于 流水 线 处 理 器 而 言 ,这 种 转换 的 意义 在 于 ,那些 本 应 在 流水 线 前 端 ID 段 
处 理 的 控制 相关 被 推迟 到 流水 线 后 端 WB 段 处 理 , 为 指令 调度 提供 了 更 大 的 空间 。 而 且 ， 
借助 这 种 转换 ,可 以 删除 代码 中 那些 行为 难以 预测 的 分 支 指令 ,提高 分 支 预测 准确 率 , 并 减 
少 由 于 分 支 预测 错误 带 来 的 性 能 损失 。 这 种 转换 技术 称 作 证 转换 (if-conversion) 。 

利用 条 件 传输 指令 可 以 简化 求 绝对 值 的 运算 A=abs(B) , 它 对 应 的 高 级 语言 语句 为 : 


if(B<0){A= —-B;} else {A=B;} 


这 个 if-then-else 结构 可 以 被 等 价 地 转换 为 下 面 的 代码 段 ,假设 变量 A、B 分 别 被 保存 在 寄 
存 器 R1 和 R2 中 : 


SUB R1, RO,R2 //A= -B 
SLT R3, R2, RO //(B<0)?, 若 B<0,R3=1, 否 则 R3=0 
CMOVZ R1, R2, R3 //R3=0 时 ,A=B 


在 这 段 代 码 中 ,第 一 条 指令 给 寄存 器 R1 赋 初 值 (-B) ,第 二 条 指令 负责 计算 传输 条 件 并 将 其 
保存 在 寄存 器 R3 中 ,二 者 可 以 并 行 。 第 三 条 指令 则 根据 传输 条 件 修改 R1 的 值 , 当 R3=0 
即 B 宇 0 时 ,R1l 将 被 修改 为 B, 这 样 就 完成 了 求 绝对 值 的 操作 。 

随 着 流水 线 中 同时 流出 的 指令 数 不 断 增加 ,处 理 器 设计 者 必须 做 出 选择 : 究竟 是 增加 
分 支 处 理 单元 ,在 一 个 周期 内 完成 多 条 分 支 指令 ,还 是 采取 类 似 条 件 执行 这 样 的 机 制 来 消除 
代码 中 的 分 支 指令 。 同 时 执行 多 条 分 支 指令 难度 很 大 ,这 不 仅 是 因为 这 些 分 支 指令 之 间 也 
存在 着 控制 相关 ,而 且 在 于 流水 线 硬件 在 实现 同时 预测 两 个 分 支 的 行为 .同时 更 新 分 支 预测 
表 两 项 操作 时 也 具有 相当 的 难度 。 因 此 ,很 多 设计 者 放弃 了 第 一 种 想法 , 转 而 利用 条 件 执行 
机 制 减少 分 支 指令 引起 的 流水 线性 能 损失 。 

条 件 传输 是 最 简单 的 条 件 执行 机 制 , 当 一 个 分 支 结构 的 then 部 分 和 else 部 分 中 仅 含有 
少量 指令 时 ,这 种 机 制 的 效果 较 好 ,就 像 前 面 的 例子 那样 。 但 随 着 指令 数 的 增加 ,经 过 计 转 
换 得 到 的 条 件 传输 指令 和 条 件 计算 指令 的 数量 也 将 增加 ,这 会 大 大 降低 目标 代码 的 效率 。 
一 些 处 理 器 采用 谓词 执行 方式 来 解决 这 一 问题 。 

谓词 执行 (predicated execution) 是 给 指令 集中 的 每 条 指令 都 增加 一 个 执行 条 件 , 这 个 
执行 条 件 就 叫 作 谓词 (predicate)。 若 谓词 为 真 ,指令 将 正常 执行 ,否则 将 什么 也 不 做 ,就 像 
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条 件 传输 指令 那样 。 在 谓词 执行 机 制 的 支持 下 ,一 个 fthen-else 分 支 结 构 的 then 部 分 与 
else 部 分 中 的 每 条 指令 都 可 以 被 转换 为 谓词 指令 ,then 部 分 中 所 有 指令 的 谓词 就 是 分 支 转 
移 条 件 ,而 else 部 分 中 指令 的 谓词 正好 与 之 相反 。 谓 词 执行 机 制 能 够 显著 增加 全 局 指令 调 
度 的 效果 ,因为 从 理论 上 来 说 ,if 转换 可 以 删除 所 有 不 构成 循环 的 分 支 指令 ,而 从 前 面 各 节 
的 讨论 中 我 们 已 经 知道 ,它们 才 是 全 局 指令 调度 面临 的 最 大 障碍 。 

谓词 执行 增加 了 异常 处 理 机 制 的 复杂 度 。 不 过 ,谓词 执行 机 制 最 复杂 的 地 方 还 不 是 异 
常 处 理 , 而 是 决定 何 时 将 执行 条 件 不 成 立 的 谓词 指令 转换 为 空 操作 。 这 可 以 在 两 个 不 同时 
机 进行 : 流水 线 前 端 指令 流出 时 ,或 是 流水 线 后 端 结果 确认 时 。 但 遗憾 的 是 ,每 种 方式 都 有 
其 不 足 之 处 。 若 要 在 指令 流出 前 决定 是 否 将 其 转换 为 空 操 作 , 必 须 尽 早 知 道 谓词 的 值 ,也 就 
是 分 支 转 移 条 件 的 值 ,可 这 个 值 是 很 难 预测 的 。 这 样 , 在 谓词 指令 与 计算 分 支 条 件 的 那 条 指 
令 之 间 就 存在 数据 相关 ,这 个 数据 相关 极 有 可 能 引起 流水 线 “ 空 转 ”。 第 二 种 方式 的 问题 在 
于 它 降低 了 功能 单元 的 实际 利用 率 一 一 由 于 结果 没有 被 写 回 ,功能 单元 做 了 无 用 功 。 不 过 ， 
对 于 多 流出 处 理 器 而 言 这 对 性 能 的 影响 并 不 大 ,因为 在 很 多 情况 下 即使 不 执行 这 些 谓 词 指 
令 ,功能 单元 也 将 处 于 空闲 状态 。 这 也 就 是 为 什么 现 有 的 支持 谓词 执行 机 制 的 处 理 器 都 选 
择 第 二 种 实现 方式 的 主要 原因 。 


3. 前 瞻 执 行 


借助 谓词 执行 机 制 可 以 实现 优化 。 不 过 目前 仅 有 IA-64、ARM 等 少量 系统 结构 全 面 实 
现 了 谓词 执行 (或 条 件 执行 ) 机 制 , 绝 大 多 数 系统 结构 只 是 部 分 地 进行 了 实现 ,如 MIPS、 
PowerPC、SPARC、Intel x86 等 结构 只 是 简单 地 实现 了 条 件 传输 指令 。 在 这 些 平台 上 ,尽管 
可 以 借助 全 局 指令 调度 技术 跨越 条 件 分 支 进行 指令 调度 ,将 部 分 指令 调度 到 分 支 指令 之 前 
猜测 执行 ,但 为 了 确保 结果 的 正确 性 ,必须 增加 补偿 代码 ,这 降低 了 猜测 执行 的 性 能 受益 。 
EPIC 结构 则 通过 前 瞻 执 行 机 制 解决 这 一 问题 。 

前 瞻 (speculation) 执 行 并 不 仅仅 是 在 数据 相关 或 控制 相关 尚未 消除 的 情况 下 ,简单 地 
将 指令 调度 到 与 之 相关 的 指令 之 前 猜测 执行 , 它 还 通过 一 系列 复杂 的 硬件 机 制 完成 异常 处 
理 、 正 确 性 保证 等 工作 。 一 般 来 说 ,影响 前 瞻 执 行 效果 的 因素 主要 有 以 下 3 个 。 

(1) 编译 器 能 力 的 大 小 , 即 编译 器 能 否 准确 识别 出 可 以 前 瞻 执 行 的 指令 ,并 在 保持 程序 
数据 流 不 变 的 前 提 下 将 它们 移 到 分 支 指令 之 前 。 有 时 可 能 需要 进行 寄存 器 重 命名 。 

(2) 异常 处 理 机 制 能 否 推迟 处 理由 被 前 瞻 执 行 的 指令 引起 的 异常 ,直到 确定 前 瞻 指 令 
确实 应 该 被 执行 后 。 在 谓词 执行 机 制 中 也 存在 类 似 的 问题 。 

(3) 如 何 避 免 前 瞻 引 起 的 错误 。 举 个 例子 ,为 了 减少 访 存 指令 引起 的 流水 线 “ 空 转 ”, 有 
时 编译 器 会 将 load 指令 调度 到 相 邻 的 上 一 条 或 几 条 store 指令 之 前 执行 , 若 发 现 前 后 两 个 
访 存 指令 的 地 址 相同 ,如 何 保证 程序 执行 结果 依然 正确 ? 

第 一 个 因素 取决 于 究竟 采用 了 何 种 编译 优化 技术 ,在 本 章 前 面 的 讨论 中 已 经 分 析 过 这 
一 问题 。 本 节 将 着 重 针 对 后 两 点 进行 深入 讨论 。 

当前 瞻 执 行 的 指令 发 生 异 常 时 ,该 怎么 处 理 呢 ?一 般 说 来 ,有 4 种 方法 可 以 解决 这 一 问 
题 。 在 详细 讨论 这 4 种 方法 之 前 ,我 们 先 将 程序 产生 的 异常 分 为 两 类 ,第 一 类 异常 发 生 时 程 
序 执行 将 被 迫 终 止 , 如 违反 存储 保护 权限 (memory protection violation) 异常, 它们 被 称 为 
“终止 性 (terminal) 异 常 ”; 另 一 类 异常 叫 作 “可 继续 (resumable) 异 常 ”, 在 被 处 理 后 程序 仍 
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可 继续 执行 ,如 缺 页 。 显 然 , 必 须 仔 细 处 理由 错误 前 瞻 的 指令 引发 的 第 一 类 异常 。 

最 简单 的 方法 是 立即 处 理 每 个 异常 ,不管 它们 是 否 由 被 前 瞻 执 行 的 指令 引发 。 为 避免 
前 瞻 指 令 引 起 的 终止 性 异常 造成 程序 执行 结束 ,对 于 此 类 异常 只 是 简单 地 返回 一 个 未 定义 
值 即 可 ,而 不 是 立即 结束 程序 的 运行 。 这 样 ,当前 瞻 正 确 时 ,正在 执行 的 程序 不 会 被 终止 ,但 
它 的 执行 结果 肯定 是 错误 的 ; 而 当前 瞻 错 误 时 ,程序 也 将 继续 执行 下 去 ,只 是 处 理 该 异常 的 
返回 值 不 会 被 使 用 。 按 照 这 种 处 理 方式 , 若 程序 的 逻辑 功能 正确 , 它 的 运行 结果 也 将 是 正确 
的 ,否则 程序 虽然 不 会 在 运行 时 终止 ,也 只 能 得 到 错误 的 运行 结果 。 对 于 某 些 应 用 程序 来 
说 ,这 种 处 理 方式 是 不 可 取 的 ,但 也 有 一 些 处 理 器 根据 这 一 思想 提供 了 快速 异常 处 理 模式 。 

第 二 种 方法 则 借助 专门 的 检测 指令 判断 是 否 需要 进行 异常 处 理 , 下 面 的 MIPS 汇编 代 
码 就 使 用 了 这 样 一 条 指令 SPECCK 


ID R1,0(R3) // 取 A 
sLD R14,0(R2) // 取 B, 前瞻 执 行 
BEQZ 。 R1,L1 
SPECCK 0(R2) // 检 查 指 令 sLD 是 否 产生 异常 
J 到 
L1: DADDI R14,R1,#4 //A=A+4 
L2: SD R14,0(R3) //A=B 


分 支 转移 失败 意味 着 指令 sLD 应 该 被 执行 ,SPECCK 指令 将 检查 sLD 执行 时 是 否 已 引发 
异常 ,并 进行 相应 的 处 理 。 这 种 方法 的 关键 在 于 ,推迟 处 理由 前 瞻 指 令 引 发 的 异常 ,直到 已 
确定 该 指令 确实 应 该 被 执行 。 

引入 SPECCK 指令 后 会 影响 目标 代码 的 效率 ,为 此 人 们 又 提出 了 第 三 种 处 理 方法 , 它 
的 工作 原理 也 十 分 简单 。 首 先 为 每 个 通用 寄存 器 增加 一 个 特殊 的 状态 标志 位 一 一 “poison” 
位 。 前 瞻 指 令 引 发 的 可 继续 异常 都 将 被 立即 处 理 ,而 当 它 引发 终止 性 异常 时 ,其 目的 寄存 器 
R 的 poison 位 将 被 置 1 ,否则 该 位 将 被 清 0。 接 下 来 ,当前 瞻 指 令 之 后 的 另 一 条 指令 访问 R 
时 ,车 R 的 poison 位 为 1 将 触发 一 个 终止 性 异常 。 可 见 , 这 种 方法 利用 寄存 器 的 poison 位 
记录 了 以 该 寄存 器 为 目标 寄存 器 的 前 瞻 指 令 在 执行 时 是 否 引 起 异常 ,并 将 异常 处 理 推 迟到 
另 一 条 指令 访问 该 寄存 器 时 。 

最 后 一 种 方法 与 第 5 章 介 绍 的 基于 硬件 的 前 瞻 (hardware speculation) 机 制 相 似 , 也 是 
将 指令 的 执行 结果 保存 在 再 定 序 缓冲 器 内 ,并 按 指令 流出 的 顺序 依次 确认 ,但 是 前 瞻 指 令 的 
确认 时 机 却 被 推迟 ,直至 能 够 确定 该 指令 的 前 瞻 执 行 是 正确 (或 错误 ) 的 。 例 如 ,一 条 指令 
被 前 瞻 调 度 到 分 支 指令 B 之 前 执行 , 当 BB 的 结果 被 确认 后 ,就 可 以 知道 I 的 这 次 前 瞻 执 行 是 
成 功 还 是 失败 了 。 如 果 工本 应 被 执行 (前 瞻 成 功 ) ,而 且 在 前 瞻 执 行 时 触发 了 终止 性 异常 , 程 
序 将 被 立即 终止 ; 如 果 工本 不 应 被 执行 (前 瞻 失 败 ) ,I1 引 发 的 所 有 异常 都 将 被 取消 。 这 种 处 
理 机 制 除了 需要 再 定 序 缓冲 器 等 硬件 机 制 的 支持 外 ,也 需要 在 编译 时 标 出 所 有 被 前 瞻 的 指 
令 , 以 及 这 些 指令 所 跨越 的 条 件 分 支 。 尽 管 全 局 指令 调度 技术 允许 跨越 多 个 条 件 分 支 进行 
指令 调度 ,但 测试 结果 却 表明 ,跨越 一 个 条 件 分 支 进行 前 瞻 调 度 即 可 获得 与 跨越 多 个 分 支 调 
度 接 近 的 性 能 加 速 比 ,这 样 编译 器 只 需 1 个 比特 (bit) 即 可 指明 被 前 瞻 指 令 的 执行 条 件 ,该 
位 为 1 表示 该 指令 来 自分 支 结构 的 then 部 分 ,为 0 则 表示 该 指令 来 自分 支 结 构 的 else 
部 分 。 

到 目前 为 止 , 本 节 讨 论 的 前 瞻 执 行 都 属于 控制 前 瞻 , 即 将 指令 调度 到 条 件 分 支 之 前 执 
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行 ,这 种 前 瞻 改 变 了 原 有 的 控制 相关 。 下 面 讨论 数据 前 瞻 的 处 理 ,这 是 由 于 指令 调度 破坏 了 
指令 间 的 数据 相关 而 引起 的 。 

将 load 指令 调度 到 store 指令 之 前 执行 是 最 常见 的 数据 前 瞻 调 度 。 之 所 以 这 样 进行 前 
脆 调 度 , 主 要 原因 有 两 个 : 四 由 于 缺乏 足够 的 运行 时 信息 ,如 不 知道 寄存 器 的 值 , 编 译 时 很 
难 确定 两 次 访 存 是 否 会 访问 相同 的 存储 单元 。 为 保证 正确 性 ,编译 器 总 是 会 选择 保守 的 调 
度 方法 ,认为 二 者 存在 地 址 冲突 ,但 在 很 多 情况 下 ,地 址 并 不 冲突 。@ 尽 早 完成 load 指令 有 
助 于 缩短 关键 路 径 的 长 度 。 

由 于 编译 器 仅 负责 将 load 指令 调度 到 store 指令 之 前 ,检测 地 址 冲突 的 任务 就 交 给 流 
水 线 硬件 完成 。 检 测 方法 为 : 当 load 指令 前 瞻 执 行 时 ,流水线 硬 件 会 将 它 访 存 的 地 址 记录 
在 一 个 特殊 的 地 址 表 中 ; 接 下 来 ,每 执行 一 条 store 指令 ,流水 线 硬 件 将 该 指令 的 访 存 地 址 
与 地 址 表 中 的 各 有 效 项 进行 匹配 ,命中 则 说 明 出 现 地 址 冲突 ,前瞻 失 败 ; 车 控制 流 抵达 load 
指令 原来 所 在 的 位 置 时 未 出 现 冲突 ,说 明 前 瞻 成 功 ,流水 线 硬件 从 地 址 表 中 删除 对 应 的 项 。 
编译 器 负责 把 一 条 特殊 的 检测 指令 放 在 load 指令 原来 所 在 的 位 置 ,执行 到 这 条 指令 时 若 没 
有 出 现 地 址 冲突 , 则 说 明 load 指令 前 瞻 成 功 。 

前 有 瞻 失 败 的 处 理 方式 有 两 种 。 如 果 仅 有 load 指令 被 前 瞻 执 行 ,这 是 最 简单 的 情况 ,只 
需 由 检测 指令 重新 执行 这 次 load 操作 即 可 。 但 如 果 数 据 相 关于 该 load 的 其 他 指令 也 已 经 
被 执行 了 ,处 理 起 来 就 麻烦 得 多 ,需要 执行 一 段 补偿 代码 重新 完成 从 load 开始 的 所 有 前 瞻 
指令 ,这 时 检测 指令 必须 能 够 将 控制 流转 移 到 补偿 代码 开始 处 。 





6.2.5 开发 更 多 的 指令 级 并 行 


在 谓词 执行 或 前 瞻 执 行 等 硬件 机 制 的 配合 下 ,全 局 指令 调度 技术 已 经 能 够 很 好 地 处 理 
由 分 支 指令 引起 的 控制 相关 : 要 么 调度 其 他 指令 跨越 那些 比较 容易 预测 的 分 支 指令 ,进行 
前 瞻 执 行 ; 要 么 通过 if 转换 删除 那些 难以 预测 的 分 支 指令 ,进行 谓词 执行 。 此 时 ,指令 间 的 
数据 相关 对 指令 级 并 行 开发 的 限制 作用 反而 越 来 越 大 。 本 节 将 讨论 处 理 这 些 数据 相关 的 编 
译 优化 技术 ,利用 这 些 技术 ,编译 时 能 够 开发 出 更 多 的 指令 级 并 行 。 

本 节 所 讨论 的 优化 技术 仍然 是 面向 循环 结构 的 ,因为 这 种 结构 中 蕴含 着 大 量 的 并 行 性 ， 
始终 是 编译 优化 的 重点 对 象 。 编 译 时 , 绝 大 多 数 指令 级 并 行 的 分 析 和 优化 在 中 间 代 码 或 目 
标 代 码 生成 后 才 开始 ,面向 中 间 代 码 或 目标 代码 完成 ,但 与 循环 结构 相关 的 分 析 和 优化 通常 
需要 在 这 之 前 进行 ,而 且 是 面向 源 代 码 完成 的 。 这 主要 是 因为 这 些 工 作 将 首先 识别 出 程序 
中 的 循环 结构 ,并 分 析 其 中 完成 数组 元 素 访问 、 数 组 元 素 下 标 计算 等 工作 的 指令 。 对 编译 器 
而 言 , 在 源 代码 上 完成 这 些 工 作 比 在 中 间 代 码 或 目标 代码 上 更 加 容易 ,因此 本 节 的 一 些 实例 
将 针对 C 代码 段 进 行 分 析 。 


1. 挖掘 更 多 的 循环 级 并 行 


从 一 个 循环 中 究竟 能 够 开发 出 多 少 并 行 受到 两 方面 因素 的 制约 : 同一 循环 迭代 内 部 
的 指令 相关 ,这 属于 基本 指令 调度 问题 ,可 以 结合 循环 展开 技术 解决 ; @ 来 自 不 同 循环 迭代 
的 指令 之 间 的 相关 . 它 会 大 大 限制 循环 展开 的 效果 。 下 面 讨论 处 理 这 种 相关 的 编译 优化 
技术 。 
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1) 循环 携带 相关 

循环 携带 相关 (loop-carried dependence) 是 限制 循环 结构 并 行 性 开发 的 一 个 重要 因素 ， 
它 是 指 一 个 循环 的 某 个 适 代 中 的 指令 与 其 他 和 迭代 中 的 指令 之 间 的 数据 相关 。 

我 们 来 看 一 个 例子 。 在 下 面 的 循环 中 ， 

for(i=1; i<=100; i=i+1){ 

A[i+1]=A[i]+C[il]; /x S1 x/ 
B[i+1]=B[i]+A[i+1]; 村 

} 

假设 数组 A、B 和 C 中 所 有 元 素 的 存储 地 址 都 互 不 相同 ,请 问 语句 Sl 与 S2 之 间 存 在 哪 
些 数 据 相关 ? 

Sl 和 S2 之 间 存 在 以 下 两 种 不 同类 型 的 数据 相关 。 

(1) ALi 二 1] 是 第 i 次 迭代 中 语句 Sl 的 目的 操作 数 , 它 的 源 操作 数 A[ 让 是 上 一 次 迭代 
中 语句 Sl 的 目的 操作 数 ,这 是 典型 的 RAW 数据 相关 。 由 于 引起 数据 相关 的 两 条 指令 分 属 
于 不 同 的 循环 迭代 ,所 以 这 是 循环 携带 相关 。 相 邻 两 次 迭代 中 的 语句 S2 之 间 也 存在 同样 的 
数据 相关 。 

(2) 同一 循环 迭代 内 的 语句 S2 与 S1 之 间 也 存在 RAW 数据 相关 ,因为 S2 的 源 操作 数 
ALi 十 1 恰好 是 S1 的 目的 操作 数 。 

尽管 这 两 类 数据 相关 都 是 RAW 类 型 ,但 它们 对 于 开发 指令 级 并 行 的 影响 完全 不 同 。 
下 面 是 上 例 中 的 循环 被 展开 两 次 后 的 结果 ,从 中 可 以 看 出 这 些 区 别 。 循 环 携带 相关 迫使 指 
令 只 能 按照 所 在 迭代 的 先后 顺序 依次 执行 ,例如 ,S3 无 法 被 调度 到 Sl 之 前 ,S4 无 法 被 调度 
到 S2 之 前 ,因为 这 两 组 语句 均 存在 循环 携带 相关 。 而 迭代 内 各 语句 间 的 数据 相关 对 于 各 次 
迭代 是 否 能 够 并 行 没有 任何 影响 ,只 要 保证 同一 迭代 内 存在 数据 相关 的 各 语句 之 间 的 相对 
顺序 不 变 , 多 个 循环 迭代 就 可 以 并 行 执 行 。 


for(i=1; i<=100; i=i+2){ 


A[i+1]=A[i] +C[i]; /x* Sl, 来 自 第 1 个 迭代 */ 
B[i+1]=B[i] +A[i+1]; /* S2, 来 自 第 1 个 迭代 */ 
A[i+2]=A[i+1]+C[i+1]; /* Ss3, 来 自 第 2 个 迭代 */ 
B[i+2]=B[i+1]+A[i+2]; /* S4, 来 自 第 2 个 迭代 x*/ 


} 


可 见 , 循 环 携带 相关 是 制约 循环 级 并 行 开发 的 主要 因素 。 所 谓 循环 级 并 行 (loop-level 
parallelism) 是 指 循 环 中 不 同 迭 代 之 间 的 并 行 , 它 的 粒度 比 指令 级 并 行 更 粗 ,因为 每 个 循环 
迭代 中 含有 多 条 指令 。 循 环 级 并 行 的 存在 意味 着 可 以 开发 出 更 多 的 指令 级 并 行 。 为 了 开发 
更 多 的 循环 级 并 行 ,必须 想 办 法 消除 不 同 欠 代 之 间 的 数据 携带 相关 。 

一 般 说 来 ,相关 距离 越 大 ,循环 展开 后 能 开发 出 的 指令 级 并 行 就 越 多 。 

2) 存储 别名 分 析 

下 面 来 讨论 优化 编译 器 对 存储 别名 的 分 析 和 处 理 方法 。 

目前 ,基本 上 所 有 的 存储 别名 分 析 算 法 都 假设 数组 下 标 是 仿 射 的 。 简 单 地 说 ,如 果 一 个 
一 维 数组 ALm :站 的 下 标 可 以 被 表示 为 形 如 Xi 十 2 的 形式 ,那么 就 称 该 数组 是 仿 射 的 
(affine) ,这 里 i 是 循环 索引 变量 ,而 m 和 分 别 表示 i 取 值 的 下 界 和 上 界 。 进 一 步 ,对 于 一 
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个 多 维 数组 ,如 果 它 每 一 维 的 下 标 都 是 仿 射 的 ,那么 它 就 是 仿 射 的 。 下 标 为 zLy[ 门 ] 的 数组 
是 一 个 典型 的 非 仿 射 数组 。 

这 样 ,判断 访问 数组 ALm:nj 的 两 条 指令 是 否 相关 的 问题 就 可 以 被 转换 为 判断 这 两 条 
指令 所 访问 的 数组 元 素 是 否 具有 相同 的 下 标 。 假 设 用 下 标 <X7 十 上 将 数组 A 的 一 个 元 素 
写 和 存储 器 ,而 用 下 标 cXk 十 4 将 数组 A 的 一 个 元 素 从 存储 器 中 读 出 ,这 里 j 和 A 都 是 循环 
索引 变量 ,mms 入) kn。 显 然 , 当 且 仅 当 aXjb 二 cXk 十 d 时 ,这 两 条 指令 将 会 访问 数组 A 
的 同一 个 元 素 。 但 在 编译 时 很 难 判断 该 等 式 是 否 成 立 , 除 非 a.b、c、d 的 值 都 是 已 知 的 。 若 
acsd 的 值 都 已 知 , 则 可 以 通过 GCD(Greatest Common Divisor, 最 大 公 因 数 ) 测 试 法 检测 
是 否 存在 存储 别名 。GCD 测试 方法 可 简单 地 描述 为 ,如 果 GCD(c, a) 可 以 整除 (db6), 那 么 
有 可 能 存在 存储 别名 。 

3) 数据 相关 分 析 

除了 检测 指令 之 间 是 否 存在 数据 相关 外 ,编译 器 还 会 将 识别 出 的 数据 相关 进一步 细 分 
为 真 数据 相关 、 输 出 相关 和 反 相 关 等 不 同类 型 ,以 便利 用 不 同 的 优化 技术 消除 这 些 相 关 。 常 
用 的 优化 技术 包括 重 命名 、 值 传播 .高度 消减 等 。 

重 命名 优化 通过 引入 新 的 变量 ,能 够 消除 所 有 这 些 输出 相关 和 反 相 关 。 

值 传播 优化 是 通过 将 变量 替换 为 已 知 的 值 或 表达 式 以 达到 消除 数据 相关 的 目的 。 通 过 
值 传播 优化 ,可 以 将 存在 相关 的 两 条 或 多 条 指令 合并 为 一 条 。 请 看 下 面 的 例子 : 

DADDUI  R1,R2,#4 

DADDUI RI,R1,#4 
通过 值 传播 优化 ,这 两 条 指令 可 被 合并 为 一 条 : 


DADDUI  R1,R2,#8 


对 于 多 流出 处 理 器 ,简单 地 减少 指令 数量 并 不 一 定 能 够 真正 缩短 执行 时 间 , 只 有 缩短 这 
些 指令 所 构成 的 数据 流 图 中 关键 路 径 的 长 度 才能 真正 获得 性 能 提升 。 高 度 削减 (tree 
height reduction) 是 解决 这 一 问题 的 有 效 方法 之 一 。 以 下 面 3 条 指令 为 例 : 

ADD R1, R2,R3 /x 1I1*#/ 

ADD Rd,R1,R6 /x I2 </ 

RDD R8,R4,R7 le 1 

指令 I2 与 1 、I3 与 I2 之 间 均 分 别 存在 真 数据 相关 ,因此 执行 这 3 条 指令 共 需 要 3 个 周 
期 , 即 这 段 代码 的 数据 流 图 的 关键 路 径 长 度 为 3。 将 它们 等 价 地 转换 为 下 面 的 代码 后 ,尽管 
指令 总 数 没有 改变 ,但 数据 流 图 关键 路 径 的 长 度 却 由 3 减少 为 2, 执 行 时 间 缩 短 了 一 个 
周期 。 

ADD ~ R1,R2,R3 


ADD R4, R6, R7 
ADD R8,R1,R4 


2. 软 流水 
前 面 介绍 的 循环 展开 和 Trace 调度 两 种 优化 技术 都 是 通过 扩大 基本 块 的 体积 来 开发 更 
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多 的 指令 级 并 行 。 本 节 讨 论 另 一 种 比较 常用 的 循环 优化 技术 一 一 软 流水 。 

软 流水 (software pipelining) 技 术 的 核心 思想 是 从 循环 不 同 的 迭代 中 抽取 一 部 分 指令 
(循环 控制 指令 除外 ) 拼 成 一 个 新 的 循环 迭代 ,以 便 将 同一 迭代 中 的 相关 指令 分 布 到 不 同 的 
和 迭 代 中 ,或 将 不 同 迭 代 中 的 相关 指令 封装 到 同一 迭代 中 。 

软 流水 的 工作 原理 如 图 6. 1 所 示 。 


到 代 0 
全 代 1 
全 代 2 


t= 


6.1 软 流水 示意 图 





软 流水 形成 
的 新 全 代 

















其 中 ,阴影 部 分 表示 得 到 的 新 迭代 , 它 包含 原 循环 迭代 0 一 4 中 的 指令 ,执行 这 个 新 的 迭 
代 就 同时 执行 了 原 循环 中 的 迭代 0 一 4, 只 不 过 每 个 迭代 只 有 一 部 分 指令 被 执行 ,而 且 各 不 
相同 ,或 者 说 每 个 迭代 处 于 不 同 的 执行 阶段 ,就 像 在 5 级 流水 线 中 同时 执行 的 5 条 指令 一 
样 。 这 项 技术 构造 了 一 条 虚拟 的 “流水 线 ”, 以 流水 的 方式 同时 执行 循环 中 的 多 个 不 同 迭 代 ， 
这 就 是 “ 软 流水 ”这 一 名 称 的 由 来 。 与 硬件 流水 线 一 样 ,这 条 软件 “流水 线 ” 也 需要 一 定时 间 
才能 充满 (或 排 空 ) ,但 与 硬件 流水 线 不 同 的 是 ,用 于 充满 (或 排 空 ) 软 件 “ 流 水 线 ” 的 指令 无 法 
被 封装 到 任何 一 个 新 的 迭代 中 ,只 能 放 在 新 循环 之 前 (或 之 后 )。 

软 流水 经 常 与 循环 展开 结合 在 一 起 使 用 ,除了 需要 从 展开 后 的 迭代 中 选择 指令 组 成 新 
的 迭代 外 ,对 于 那些 迭代 中 有 和 较 多 “空转 ”周期 的 循环 ,在 进行 软 流水 前 往往 也 只 有 先进 行 循 
环 展开 才能 获得 比较 理想 的 效果 。 不 过 ,这 两 种 技术 所 消除 的 流水 线 开 销 是 完全 不 同 的 : 
循环 展开 主要 减少 由 分 支 指令 和 修改 循环 索引 变量 的 指令 所 引起 的 循环 控制 开销 ,如 将 某 
循环 展开 4 次 后 ,循环 控制 开销 将 减少 为 原来 的 四 分 之 一 ,但 执行 每 个 迭代 时 ,用 于 充满 和 
排 空 流水 线 的 开销 并 不 会 减少 。 软 流水 则 恰恰 减少 了 这 部 分 开销 ,使 迭代 内 的 指令 级 并 行 
达到 最 大 。 


习 题 
1. 概念 题 
【 题 6.1】 解释 下 列 名 词 
指令 调度 循环 展开 全 局 指令 调度 关键 路 径 
补偿 代码 踪迹 调度 超 块 尾 复制 


VLIW EPIC 二 进 制 翻译 谓词 执行 
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前 瞻 执 行 让 转换 循环 携带 相关 相关 距离 
GCD 测试 值 传播 高 度 削 减 软 流水 
2. 问答 题 


【是 6.2】 简 述 踪迹 调度 和 超 块 调度 的 基本 过 程 。 

【是 6. 3】 试 比较 循环 展开 和 软 流水 这 两 种 编译 优化 技术 的 异同 。 

【 题 6.4】 有 哪些 方法 可 以 处 理由 前 瞻 指 令 引起 的 异常 ? 

【十 6. 5】 结合 IA-64 体系 结构 分 析 谓 词 执行 机 制 需要 编译 器 和 流水 线 硬件 分 别提 供 
哪些 支持 。 

【十 6.6】 用 GCD 测试 法 判断 下 面 的 循环 中 是 否 存在 循环 携带 的 真 数 据 相关 。 

for ( i=2; 

i<=100;i+= 2) 

a[il]=a[i-1]; 


【 题 6.7】 试 分 析 造 成 VLIW 目标 代码 编码 效率 低 的 原因 。 如 何 解决 这 一 问题 ? 
3. 应 用 题 


【 题 6.8】 指出 下 面 这 段 C 代码 中 的 所 有 数据 相关 ,对 于 真 数据 相关 ,还 应 指明 它们 是 
否 是 循环 携带 相关 。 试 分 析 能 否 从 这 段 循环 中 开发 出 循环 级 并 行 ,并 说 明 原因 。 


for(i=2; i<100; i=i+1){ 


a[li] = b[i] + a[i]; i 
c[i-1] = a[li] + d[i]; /* S2 #/ 
ali=1] = 2 % Bi]; 3 % 
bli+1] = 2 * b[i]; ta a ny 


} 
【 题 6.9】 下 面 的 循环 中 含有 相关 距离 为 1 的 循环 携带 相关 ,无 法 从 中 开发 出 大 量 的 
循环 级 并 行 。 对 这 段 代码 进行 调整 ,使 得 多 个 的 循环 迭代 可 以 并 行 执行 。 


for(i=1; i<100; i=i+1){ 


a[i] = b[i + c[il]; /x S1 */ 
b[li] = ali] + d[il]; /* S2 </ 
ali+1] = a[i] + e[i]; /x S3 x*/ 


} 
【 题 6.10】 假设 浮 点 流水 线 的 延迟 如 表 6. 2 所 示 。 
表 6.2 浮 点 流水 线 的 延迟 














产生 结果 的 指令 使 用 结果 的 指令 延迟 (时 钟 周期 数 ) 
浮 点 计算 另 一 个 浮 点 计算 3 
浮 点 计算 浮 点 store(S. D) 名 
浮 点 load(L.D) 浮 点 计算 1 
浮 点 load(L. D) 浮 点 store(S. D) 0 
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Loop: L.D FO0, 0(R1) // 取 一 个 数组 元 素 放 入 F0 
ADD.D ~ Fd4, F0, F2 // 加 上 在 F2 中 的 标量 
S.D F4，0(R1) // 存 结果 
DADDIU RI1, Rl, # -8 // 将 指针 减少 8( 每 个 数据 占 8 个 字 节 ) 
BNE R1, R2, Loop // 若 Rl 不 等 于 R2, 表 示 尚 未 结束 ， 
// 转 移 到 Loop 继续 


先 将 上 述 代 码 的 循环 展开 3 次 得 到 4 个 循环 体 , 然 后 对 展开 后 的 指令 序列 进行 调度 , 消 
除 所 有 的 “空转 ?周期 。 假 定 R1 的 初 值 为 32 的 倍数 , 即 循环 次 数 为 4 的 倍数 。 消 除 元 余 的 
指令 ,并 且 不 要 重复 使 用 寄存 器 。 
【 题 6.11】 下 面 是 这 段 循环 完成 点 积 (dot product) 运 算 ,寄存 器 F2 的 初 值 为 0。 试 结 
合 使 用 循环 展开 和 基本 指令 调度 技术 ,消除 其 中 的 所 有 流水 线 “ 空 转 ” 周 期 。 假 设 流水 线 延 
迟 如 表 6. 1 所 示 , 分 支 指令 也 会 带 来 一 个 “空转 ”周期 。 
loop: L.D FO0,0(R1) 
L.D F4,0(R2) 
MUL.D FO0,FO0,F4 
RDD.D F2,F0,F2 
DADDUI R1,R1,# -8 
DADDUI R2,R2, 井 一 8 
BNE R1,R3, loop 
【 题 6.12】 举例 说 明 为 何 前 瞻 执 行 能 够 带 来 一 定 的 性 能 提升 ? 
【 题 6.13】 请 描述 下 面 的 代码 段 中 前 瞻 指 令 sLD 如 何 执行 。 


LD Ri1,0(R3) // 取 A 
sLD R14,0(R2) // 取 B, 前瞻 执行 
BEQZ R1,L3 
DADDI R14,R1, #4 //A=A+4 
LI3: SD R14,0(R3) //A=B 
【 题 6.14】 试用 软 流 水 技术 处 理 下 面 的 循环 。 
L: L.D FO0, 0(R1) //F0 = 0(R1) 
ADD.D F4, FO0,F2 //F2 = F0O + Fl 
S.D F4,0(R1) // 将 F2 存 人 0(R1) 
DADDUI  R1,R1,#4 //RL = R1 - 4 
BNEZ R1,L // 车 Ri 不 为 0, 转 工 


【 题 6.15】 为 了 使 用 GCD 测试 方法 判断 一 个 循环 是 否 含有 存储 别名 ,必须 首先 将 循 
环 索引 变量 的 步 长 变 为 1。 请 先 将 下 面 的 循环 代码 的 步 长 变 为 1, 然后 用 GCD 测试 方法 判 
断 其 中 是 否 存在 存储 别名 。 
for(i=2; i<=100; i+= 2) 
a[li] = a[50*i+1]; 
【 题 6.16】 试 将 基本 块 Bl 的 第 二 条 语句 调度 至 基本 块 B2 内 ,为 了 保证 结果 正确 ,可 
以 加 入 一 定 的 补偿 代码 。 


有 
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人 
if x<5 goto B3 
B2:z=x*#*z 


BB:y=2xy 


【 旺 6.17】 假设 浮 点 流水 线 的 延迟 如 表 6. 3 所 示 。 
表 6.3 浮 点 流水 线 的 延迟 














产生 结果 的 指令 使 用 结果 的 指令 延迟 (时 钟 周期 数 ) 
浮 点 计算 另 一 个 浮 点 计算 3 
浮 点 计算 浮 点 store(S. D) 2 
浮 点 load(L.D) 浮 点 计算 1 
浮 点 load(L.D) 浮 点 store(S.D) 0 








假设 某 VLIW 处 理 器 每 个 时 钟 周期 可 以 同时 流出 5 个 操作 ,包括 两 个 访 存 操作 ,两 个 
浮 点 操作 以 及 一 个 整数 或 分 支 操作 。 将 下 述 代码 循环 展开 ,并 调度 到 该 VLIW 处 理 器 上 执行 。 
循环 展开 次 数 不 定 ,但 至 少 要 能 够 保证 消除 所 有 流水 线 “空转 ”周期 ,同时 不 考虑 分 支 延 迟 。 


Loop: L.D FO0, 0(R1) // 取 一 个 向 量 元 素 放 入 F0 
ADD.D F4, F0, F2 // 加 上 在 F2 中 的 标量 
S.D Fd, 0(R1) // 存 结果 


DADDIU R1, Rl, # -8  // 将 指针 减 8( 每 个 数据 占 8 个 字 节 ) 
BNE Rl, R2, Loop // 若 R1 不 等 于 R2, 表示 尚未 结束 ,转移 
// 到 Loop 继续 


【 题 6.18】 在 下 面 的 语句 中 ， 
if(A=0){S=T; } 


假设 变量 A、S、T 的 值 分 别 保存 在 寄存 器 R1、R2 和 R3 内 。 请 用 分 支 指令 和 条 件 传输 指令 
编写 功能 相同 的 汇编 代码 。 

【 题 6. 19】 假设 在 一 个 周期 内 , 某 双 流出 的 超标 量 处 理 器 可 以 同时 执行 一 个 访 存 操 作 
和 一 个 ALU 操作 ,或 者 仅 执行 一 个 分 支 操作 。 受 此 限制 , 表 6.4 中 这 段 汇编 代码 的 执行 效 
率 并 不 高 ,表现 在 : 第 二 个 周期 只 能 流出 一 条 ALU 指令 , 访 存单 元 空闲 ; @ 当 分 支 转移 
不 成 功 时 ,BEQZ 指令 后 的 两 条 LW 指令 之 间 存 在 的 数据 相关 将 引起 流水 线 暂停 。 试 通过 
谓词 执行 机 制 解决 这 两 个 问题 ,减少 此 段 代 码 的 执行 开销 。 

















表 6.4 汇编 代码 
周期 指令 1 指令 2 
1 LW R1,40(R2) ADD R3,R4,R5 
2 ADD R6,R3,R7 
3 BEQZ R10,L 
4 LW R8,0(R10) 
5 LW R9,0(R8) 
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题 解 


1. 概念 题 


【 题 6.1】 解释 下 列 名 词 

指令 调度 一 一 为 了 充分 发 挥 流水 线 的 作用 ,必须 设法 让 它 满 负 荷 地 工作 ,这 就 要 求 充分 
开发 指令 之 间 存 在 的 并 行 性 , 找 出 不 相关 的 指令 序列 ,让 它们 在 流水 线 上 重 肥 并行 执行 ,这 
一 工作 就 是 指令 调度 。 

循环 展开 一 一 所 谓 循 环 展开 (loop unrolling) 就 是 指 把 循环 体 的 代码 复制 多 次 并 按 顺 序 
排放 ,然后 相应 调整 循环 的 结束 条 件 。 通 过 循环 展开 ,多 个 循环 迭代 的 代码 可 以 合 到 一 起 调 
度 , 给 编译 器 进行 指令 调度 带 来 了 更 大 的 空间 ,而 且 还 能 够 消除 中 间 的 分 支 指 令 和 循环 控制 
指令 引起 的 开销 。 

全 局 指令 调度 一 一 需要 在 多 个 基本 块 间 移动 指令 的 指令 调度 被 称 为 “全 局 指令 调度 ”。 

关键 路 径 一 一 所 谓 关键 路 径 (critical path) ,是 指 根据 指 令 间 相关 关系 构成 的 数据 流 图 
中 延迟 最 长 的 一 条 路 径 。 

补偿 代码 一 一 在 全 局 指令 调度 中 ,为 保证 结果 正确 而 增加 的 一 些 代 码 。 

踪迹 调度 一 一 踪迹 (trace) 是 程序 执行 的 指令 序列 ,通常 由 一 个 或 多 个 基本 块 组 成 ， 
trace 内 可 以 有 分 支 , 但 一 定 不 能 包含 循环 。 踪 迹 调度 会 优化 执行 频率 高 的 trace, 减 少 其 执 
行 开 销 。 踪 迹 调度 包括 踪迹 选择 和 踪迹 压缩 两 个 步骤 。 

超 块 一 一 人 们 增加 了 对 trace 拓扑 结构 的 约束 ,将 其 限制 为 只 能 拥有 一 个 入 口 ,但 可 以 
拥有 多 个 出 口 的 结构 ,这 种 新 结构 被 称 为 超 块 (superblock) 。 

尾 复制 一 一 超 块 调度 时 往往 也 需要 进行 代码 复制 ,以 确保 结果 的 正确 。 由 于 被 复制 的 
代码 段 总 是 作为 退出 超 块 后 必须 执行 的 补偿 代码 , 故 这 种 技术 被 形象 地 称 为 尾 复制 (tail 
duplication ) 。 

VLIW 一 一 VLIW 能 够 把 同时 流出 的 或 者 满足 特定 约束 的 一 组 操作 打包 在 一 起 ,得 到 
一 条 更 长 (64 位 、128 位 或 更 长 ) 的 指令 ,这 就 是 其 名 字 的 由 来 。 每 个 操作 被 放 在 VLIW 指 
令 的 一 个 模 (slot) 内 。VLIW 处 理 器 执行 这 样 一 条 长 指令 就 相当 于 超标 量 处 理 器 同时 执行 
多 条 指令 ,从 而 实现 了 多 流出 。 

EPIC 一 一 一 般 来 说 ,EPIC 结构 必须 符合 以 下 两 个 基本 特点 。 第 一 ,指令 级 并 行 主要 由 
编译 器 负责 开发 ,处 理 器 应 为 保证 代码 正确 执行 提供 必要 的 硬件 支持 ,只 有 在 这 些 硬 件 机 制 
的 辅助 下 这 些 优化 技术 才能 高 效 完成 。 第 二 ,系统 结构 必须 提供 某 种 通信 机 制 ,使 得 流水 线 
硬件 能 够 了 解 编译 器 “安排 ?好 的 指令 执行 顺序 。EPIC 并 不 仅仅 是 采用 了 多 种 高 级 编译 优 
化 技术 的 VLIW 结构 ,这 只 不 过 是 它 的 一 个 特征 。EPIC 的 第 二 个 特征 ,有 效 的 软 硬 件 通信 
机 制 , 才 是 它 与 VLIW 之 间 的 本 质 区 别 。 

二 进 制 翻译 一 一 二 进 制 翻译 (binary translation) 是 指 将 某 个 硬件 平台 的 二 进 制 目 标 代 
码 翻 译 为 男 一 个 平台 的 目标 代码 的 过 程 ,是 目前 在 不 同 平台 之 间 实 现 目 标 代码 兼容 的 主要 
手段 之 一 。 
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谓词 执行 一 一 谓词 执行 (predicated execution) 是 一 种 特殊 的 条 件 执行 机 制 。 所 谓 条 件 
执行 ,是 指 指令 的 执行 依赖 于 一 定 的 条 件 , 当 条 件 为 真 时 指令 将 正常 执行 ,否则 指令 将 被 动 
态 地 转换 为 空 操作 。 

前 瞻 执 行 一 一 前 瞻 (speculation) 执 行 并 不 仅仅 是 在 数据 相关 或 控制 相关 尚未 消除 的 情 
况 下 ,简单 地 将 指令 调度 到 与 之 相关 的 指令 之 前 猜测 执行 , 它 还 通过 一 系列 复杂 的 硬件 机 制 
完成 异常 处 理 、 正 确 性 保证 等 工作 。 

站 转 换 一 一 将 分 支 指 令 引 起 的 控制 相关 转换 为 相对 于 分 支 转 移 条 件 的 数据 相关 ,使 得 
那些 本 应 在 流水 线 前 端 ID 段 处 理 的 控制 相关 被 推迟 到 流水 线 后 端 WB 段 处 理 ,为 指令 调 
度 提 供 了 更 大 的 空间 。 而 且 ,借助 这 种 转换 可 以 删除 代码 中 那些 行为 难以 预测 的 分 支 指令 ， 
提高 分 支 预测 准确 率 , 并 减少 由 于 分 支 预测 错误 带 来 的 性 能 损失 。 这 种 转换 技术 称 作 让 
转换 。 

循环 携带 相关 一 一 循环 携带 相关 (loop-carried dependence) 是 限制 循环 结构 并 行 性 开 
发 的 一 个 重要 因素 , 它 是 指 一 个 循环 的 某 个 迭代 中 的 指令 与 其 他 迭代 中 的 指令 之 间 的 数据 
相关 。 

相关 距离 一 一 一 个 循环 的 相关 距离 是 ,表示 它 的 第 i 次 迭代 中 的 语句 与 第 i-k 次 迭代 
中 的 语句 之 间 存 在 循环 携带 数据 相关 。 

GCD 测试 一 一 这 是 一 种 存储 别名 检测 方法 ,可 简单 地 描述 为 ,如 果 GCD(c, a) 可 以 整 
除 (q-5) ,那么 有 可 能 存在 存储 别名 。 

值 传播 一 一 值 传播 优化 是 通过 将 变量 替换 为 已 知 的 值 或 表达 式 以 达到 消除 数据 相关 的 
目的 。 

高 度 削 减 一 一 通过 代码 调度 /转换 减少 数据 流 图 关键 路 径 长 度 的 一 种 优化 方法 。 

软 流 水 一 一 软 流水 (software pipelining) 技 术 的 核心 思想 是 从 循环 不 同 的 迭代 中 抽取 
一 部 分 指令 (循环 控制 指令 除外 ) 拼 成 一 个 新 的 循环 近代, 以便 将 同一 近代 中 的 相关 指令 分 
布 到 不 同 的 迭代 中 ,或 将 不 同 迭 代 中 的 相关 指令 封装 到 同一 迭代 中 。 


2. 问答 题 


【 题 6.2】 答 : 踪迹 调度 过 程 分 为 两 步 。 第 一 步 称 为 踪迹 选择 (trace selection) ,负责 
从 程序 的 控制 流 图 中 选择 执行 频率 较 高 的 路 径 , 每 条 路 径 就 是 一 条 trace。 第 二 步 称 为 踪迹 
压缩 (trace compaction) , 即 对 已 生成 的 trace 进行 指令 调度 和 优化 , 尽 可 能 地 缩短 其 执行 时 
间 。 在 踪迹 调度 中 ,由 于 选 出 的 trace 都 是 执行 频率 很 高 的 路 径 ,减少 它们 的 执行 开销 有 助 
于 缩短 程序 的 总 执行 时 间 ,这 就 是 踪迹 调度 能 够 提升 性 能 的 最 根本 原因 。 

超 块 是 只 能 拥有 一 个 入 口 ,但 可 以 拥有 多 个 出 口 的 trace 结构 ,可 被 视 作 一 种 扩展 的 基 
本 块 结构 ,其 构造 过 程 与 trace 非常 相似 。 但 与 踪迹 调度 相 比 , 超 块 调度 可 以 简化 补偿 代码 
生成 过 程 ,并 降低 指令 调度 的 复杂 度 , 但 由 于 其 结构 的 限制 (只 有 一 个 入 口 ), 超 块 结构 的 目 
标 代 码 体积 也 会 大 大 增加 。 

【 题 6.3〗 答 : 它们 都 可 以 开发 循环 级 并 行 , 即 不同 迭 代 的 指令 之 间 的 并 行 。 但 是 , 循 
环 展开 增加 了 代码 体积 ,减少 了 循环 次 数 ; 而 软 流 水 对 代码 体积 和 循环 次 数 的 影响 都 很 小 。 

这 两 种 技术 所 消除 的 流水 线 开 销 是 完全 不 同 的 : 循环 展开 主要 减少 由 分 支 指 令 和 修改 
循环 索引 变量 的 指令 所 引起 的 循环 控制 开销 ,如 将 某 循 环 展开 4 次 后 ,循环 控制 开销 将 减少 
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为 原来 的 四 分 之 一 ,但 执行 每 个 迭代 时 ,用 于 充满 和 排 空 流 水 线 的 开销 并 不 会 减少 。 软 流水 
则 恰恰 减少 了 这 部 分 开销 ,使 迭代 内 的 指令 级 并 行 达到 最 大 。 

因此 它们 往往 被 结合 在 一 起 使 用 。 

【 题 6.4】 答 : 通常 有 4 种 方法 处 理 前 瞻 指 令 引 起 的 异常 : 

(1) 立即 处 理 , 不 管 它们 是 否 由 被 前 瞻 执 行 的 指令 引发 。 

(2) 借助 专门 的 检测 指令 判断 是 否 需要 进行 异常 处 理 。 

(3) poison 位 方法 。 

(4) 基于 硬件 的 前 瞻 执 行 机 制 , 待 确认 前 瞻 执 行 正 确 后 才 处 理 。 

【 题 6.5】 答 : 第 一 ,提供 谓词 寄存 器 。IA-64 设置 了 大 量 的 谓词 寄存 器 (64 个 ) ,用 于 
保存 指令 的 执行 条 件 ,每 个 谓词 寄存 器 的 宽度 都 是 1 位 。 

第 二 ,修改 指令 格式 。 所 有 类 型 的 IA-64 操作 都 可 以 按照 谓词 执行 方式 执行 ,每 个 操作 
41 位 编码 的 最 低 6 位 指明 了 保存 执行 条 件 的 谓词 寄存 器 。 

第 三 ,增加 专门 的 谓词 计算 指令 。 为 了 更 高 效 地 确定 指令 的 执行 条 件 (谓词 寄存 器 的 
值 ) ,IA-64 专门 增强 了 比较 (compare) 操 作 和 测试 (test) 操 作 的 功能 。 它 们 都 可 以 同时 修改 
谓词 寄存 器 的 值 ,这样 就 可 以 同时 计算 出 一 个 分 支 结构 then 部 分 和 else 部 分 各 指令 的 谓 
词 。IA-64 的 比较 操作 更 是 支持 多 种 不 同 的 比较 模式 ,可 以 同时 完成 多 个 比较 ,大 大 地 提高 
了 谓词 的 计算 效率 。 

第 四 ,提供 专门 的 异常 处 理 机 制 。 

第 五 ,流水 线 硬件 决定 何 时 将 执行 条 件 不 成 立 的 谓词 指令 转换 为 空 操作 ,可 以 有 两 种 选 
择 : 流水 线 前 端 指令 流出 时 ,或 是 流水 线 后 端 结果 确认 时 。 

第 六 ,提供 能 够 完成 if-conversion 的 编译 器 。 

【 题 6.6】 答 : 在 这 个 循环 中 a=1, b==0, c==1, d= 一 1, 这 样 ,GCD(a,c)=1, d 一 b= 
一 1, 由 于 前 者 可 以 整除 后 者 ,该 循环 存在 循环 携带 的 真 数 据 相 关 , 相 关 距 离 为 1。 

【 题 6.7〗 答 : 造成 VLIW 目标 代码 编码 效率 低 的 原因 主要 有 两 个 : 为 了 消除 流水 
线 “ 空 转 ” 需 要 增加 循环 展开 的 次 数 , 这 增加 了 目标 代码 的 体积 ; @ 很 难 从 应 用 程序 中 找到 
足够 多 的 并 行 指令 填 满 VLIW 指令 中 的 每 一 个 槽 ,实际 应 用 中 还 经 常会 出 现 一 条 VLIW 指 
令 中 所 有 操作 都 是 nop 的 情况 。 

使 用 代码 压缩 /还 原 技术 可 以 减少 VLIW 目标 代码 体积 过 大 带 来 的 性 能 损失 : VLIW 
目标 代码 被 压缩 后 保存 在 硬盘 中 ,只 保留 指令 中 非 nop 操作 的 信息 ; 程序 运行 时 ,当代 码 被 
加 载 到 指令 Cache 时 或 译 码 时 再 将 其 解压 缩 ,还 原 出 所 含 的 nop 操作 。 


3， 应 用 题 





【 题 6. 8】 

解 : 

(1) 因为 对 a[ 订 的 写 和 读 ,S] 与 S2 之 间 存 在 真 数据 相关 ,不 是 循环 携带 相关 。 它 不 会 
妨碍 我 们 将 这 段 循环 展开 ,但 却 限制 S2 不 能 被 调度 到 Sl1 之 前 执行 。 

(2) 因为 对 a[ 订 的 写 和 读 ,S3 与 S1 之 间 存 在 真 数据 相关 ,是 循环 携带 相关 。 

(3) 因为 对 b[ 癌 的 写 和 读 ,S4 与 S1,S4 与 S3,S4 与 S4 之 间 存 在 真 数据 相关 ,是 循环 携 
带 相 关 , 且 相关 距离 为 1, 这 使 我 们 无 法 有 效 地 开发 循环 级 并 行 。 
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(4) 因为 对 a[ 记 的 写 ,Sl 和 S3 之 间 存 在 输出 相关 ,是 循环 携带 相关 。 

【十 6. 9】 

解 : 第 i 次 迭代 中 语句 S3 的 结果 被 第 i 十 1 次 迭代 中 语句 Sl1 所 使 用 ,S1 与 S3 之 间 存 
在 循环 携带 真 数据 相 关 。 但 它们 没有 构成 环 , 因 此 多 个 循环 先 代 之 间 仍 可 并 行 , 但 需要 进行 
如 下 代码 变换 : 


a[1] = b[1] + c[1]; 
a[2] = a[1] + e[1]; 
for (i=1; i<99; i=i+1){ 
b[li] = a[li] + d[i]; 
ali+1] = bli+1] + d[i+1]; 
a[i+2] = afi+1] + efi+1]; 
} 
b[99] = a[99] + d[99]; 


【是 6. 10】 
解 : 展开 后 没有 调度 的 代码 如 下 。 


Loop: L.D FO, 0(R1) 
ADD.D Fd4, F0, F2 
S.D Fd, 0(R1) 
LD  F6, -8(R1) 
ADD.D F8, F6, F2 
S.D  F8, -8(R1) 
LD Fl10, -16(R1) 
ADD.D F12, F10, F2 
S.D Fl2, -16(R1) 
LD Fl4, -24(R1) 
ADD.D F16, F14, F2 
S.D Fl16, -24(R1) 
DADDIU R1, Ri, # -32 
BNE Rl, R2, Loop 


对 指令 序列 进行 优化 调度 ,以 减少 空转 周期 。 


指令 流出 时 钟 
Loop: L.D FO, 0(R1) 和 
L.D F6, -8(R1) 2 
L.D F10, -16(R1) 3 
L.D F14, -24(R1) 4 
ADD.D ~ F4, F0, F2 5 
ADD.D ~ F8, F6, F2 6 
ADD.D ~ F12, F10, F2 
ADD.D ~ F16, F14, F2 8 
S.D F4, 0(R1) 9 
S.D F8, -8(R1) 10 
DADDIU ”BR1，R1， 井 一 32 2 
S.D F12, 16(R1) 入 
BNE R1, R2, Loop 13 


S.D F16, 8(R1) 14 
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这 个 循环 由 于 没有 数据 相关 引起 的 空转 等 待 , 整 个 循环 仅 使 用 了 14 个 时 钟 周 期 ,平均 
每 个 元 素 使 用 14/4 二 3. 5 个 时 钟 周期 。 

【 题 6. 11】 

解 : 


loop: L.D FO0,16(R1) 
工 .D F4,16(R2) 
L.D F6,8(R1) 
MUL.D FO0,FO0,F4 
L.D F8,8(R2) 
L.D F10, F10, (R1) 
MUL.D F6,F6,F8 
ADD.D F2,F0,F2 
L.D F12, F12, (R2) 
DADDUI R1,R1,# -24 
MUL.D F10,F10,F12 
ADD.D F2,F6,F2 
DADDUI R2,R2,# 一 24 
BNE R1, R3, loop 
ADD.D F2,F10,F2 


【 题 6.12】 
解 : 以 下 面 的 汇编 指令 为 例 : 
LD Rl,0(R3) // 取 A 
BNEZ R1,L1 //(AA0)? 
LD R1,0(R2) //A= B(else 部 分 ) 
J L2 
L1: DADDI R1,R1,#4 //A=A+4(then 部 分 ) 
L2: SD BRl,0(R3) // 存 A 
前 瞻 调 度 结 果 如 下 : 
LD Rl,0(R3) // 取 A 
SLD R14,0(R2) // 取 B, 前瞻 执 行 
BEQZ R1,L3 
DADDI R14,R1, #4 //A=A+4 
LI3: SD R14 ,0(R3) //A=B 


这 段 代码 将 按照 下 面 的 顺序 执行 : 第 一 条 指令 正常 执行 ; 第 二 条 指令 为 前 瞻 执 行 , 此 
处 我 们 特地 用 SLD 表明 它 与 第 一 条 指令 的 区 别 , 取 出 的 数据 保存 在 寄存 器 R14 中 ; 第 三 条 
是 分 支 指令 BEQZ, 它 将 根据 分 支 转移 条 件 ( 即 R1 是 否 为 0) 判 断 前 瞻 是 否 正确 , 若 R1 为 0 
则 跳 转 到 L3 并 执行 指令 SD, 由 于 此 时 变量 B 的 值 已 经 被 加 载 到 R14 中 ,通过 这 条 指令 就 
会 将 变量 B 的 值 赋 给 A, 此 时 前 瞻 正 确 ; 否则 投机 失败 ,应 先 执行 第 四 条 指令 DADDI, 将 
R1 的 值 加 4, 然后 通过 下 一 条 指令 SD 将 结果 写 回 变量 A 对 应 的 存储 单元 。 

【 题 6.13】 

解 : 这 段 代 码 将 按照 下 面 的 顺序 执行 : 第 一 条 指令 正常 执行 ; 第 二 条 指令 为 前 瞻 执 行 ， 
取出 的 数据 保存 在 寄存 器 R14 中 ; 第 三 条 是 分 支 指令 BEQZ, 它 将 根据 分 支 转 移 条 件 ( 即 
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R1 是 否 为 0) 判 断 前 瞻 是 否 正 确 , 若 Rl1 为 0 则 跳 转 到 L3 并 执行 指令 SD, 由 于 此 时 变量 B 
的 值 已 经 被 加 载 到 R14 中 ,通过 这 条 指令 就 会 将 变量 B 的 值 赋 给 A, 此 时 前 瞻 正 确 ; 否则 前 
脆 失 败 ,应 先 执行 第 四 条 指令 DADDI, 将 R1 的 值 加 4, 然后 通过 下 一 条 指令 SD 将 结果 写 回 
变量 A 对 应 的 存储 单元 。 


【 题 6. 14】 

解 : 软 流水 处 理 后 结果 如 下 : 
DADDUI “RI1,R1,# -8 //R1 保存 x[n- 2] 的 地 址 
L.D F0, 8(R1) // 取 x[n] 
ADD.D F4, FO0,F2 //x[n] = x[n] + F2 
L.D FO0,4(R1) // 取 x[n-1] 

L: S.D F4,8(R1) // 存 x[i+2] 
ADD.D F4, FO0,F2 //x[i+1] = x[i+1] + F2 
L.D FO0, 0(R1) // 取 x[i] 
DADDUI RI,R1,#-4 // 填 充分 支 延 迟 模 
BNE R1, 0, Loop 
S.D F0,4(R1) // 存 x[2] 
RDD.D F4, FO0,F2 //x[1] = x[1] + F2 
S.D F4,0(R1) // 存 x[1] 

【是 6. 15】 


解 : 修改 结果 如 下 : 


for(i=1; i<=50; i++) 

a[2x*il = a[100x*i+1l]; 
用 GCD 测试 法 ,a==2,b==0,c 二 100,d 二 1,GCD(c,a) 二 2,(d-b) 二 1, 因 此 不 存在 存储 

别名 。 
【 题 6. 16】 
解 : Bl:x=x+1 
if x<5 goto Bi 
B2:y=x-y 


号 - 归 - :下 关 训 


和 
goto Bs 
B33 全 = 这 // 补 偿 代码 , 若 分 支 转移 成 功 ,需要 这 条 代码 ,否则 Y 的 值 将 不 正确 
.at 
x=x-2 
【 题 6. 17】 


解 : 循环 被 展开 7 次 ,经 调度 后 可 以 消除 所 有 流水 线 “ 空 转 ”, 如 表 6. 5 所 示 。 
表 6.5 ”循环 展开 和 指令 调度 











访 存 操作 1 访 存 操作 2 浮 点 操作 1 浮 点 操作 2 整数 分 支 操作 
L. D F0,0CR1) L. DF6,—8(R1) |nop nop nop 
L. D Fl10, 一 16(R1) |L. D Fl4, 一 24(R1) |nop nop nop 
L. D Fl18,—32(R1) |L. D F22,—40(R1) | ADD. D F4,F0,F2 |ADD.D F8,F6,F2 |nop 
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访 存 操作 1 访 存 操作 2 浮 点 操作 1 浮 点 操作 2 整数 分 支 操作 
L. D F26 ,一 48(R1) |nop ADD.D F12,F10,F2 | ADD. D F16,F14,F2|nop 
nop nop ADD. D F20,F18,F2 | ADD. D F24,F22,F2 |nop 
S. DoO(R1),F4 S. D—8(R1),F8 |ADD.D F28,F26,F2 |nop nop 
S.D 一 16(R1),F12 |S. D 一 24(R1) ,F16 |nop nop nop 
S. D 一 32(R1),F20 |S. D 一 40(R1) ,F24 | nop nop DADDUI R1,R1, #56 
S. D 8(R1),F28 nop nop nop BNE R1,R2,Loop 


【 题 6. 18】 








解 : 包含 分 支 指令 的 MIPS 汇编 代码 如 下 : 


BNEZ 
ADDU 
Li; 


R1,L 
R2, R3, RO 


而 使 用 条 件 传输 指令 时 的 汇编 代码 为 : 


CMOVZ 


R2, R3, R1 








指令 CMOVZ 有 3 个 操作 数 ,R2 为 目的 操作 数 ,R1 和 R3 是 源 操作 数 ,执行 条 件 保存 
在 寄存 器 R1 中 。 当 R1=0 时 ,R3 的 值 被 复制 到 R2 中 ,否则 R2 的 内 容 不 变 。 


【 题 6. 19】 


解 : 用 LWC 表示 带 谓词 的 LW 指令 ,并 假设 该 指令 的 执行 条 件 为 谓词 不 等 于 0。 这 
样 ,BEQZ 后 的 第 一 条 LW 指令 就 可 以 被 转换 为 LWC 指令 ,并 被 调度 到 第 二 个 周期 执行 ， 


如 表 6.6 所 示 。 





表 6.6 调度 后 代码 




















周期 指令 1 指令 2 

1 LW Rl,40(R2) ADD R3,R4,R5 
2 LWC R8,20(R10) ,R10 ADD R6,R3,R7 
3 BEQZ R10,L 

4 LW R9,0(R8) 


显然 调度 后 代码 的 执行 时 间 缩 短 了 。 当 然 , 如 果 分 支 转移 成 功 ( 即 R10 二 0) ,LWC 指令 
将 被 转换 为 空 操作 ,这 虽然 不 会 影响 结果 的 正确 性 ,但 也 不 会 缩短 这 段 代码 的 执行 时 间 。 


第 7 章 存储 系统 


7.1 基本 要 求 与 难点 


7.1.1 基本 要 求 


(1) 掌握 有 关 存 储 系 统 的 基本 概念 。 

(2) 理解 存储 系统 的 层次 结构 和 存储 层次 的 性 能 参数 。 

(3) 掌握 “Cache- 主 存 ”" 和 “ 主 存 - 辅 存 ” 层 次 的 区 别 。 

(4) 理解 Cache 的 基本 工作 原理 和 工作 过 程 ,掌握 映像 规则 。 

(5) 掌握 替换 算法 及 LRU 算法 的 硬件 实现 ,并 能 进行 Cache 性 能 分 析 。 

(6) 掌握 8 种 降低 Cache 不 命中 率 的 方法 。 

(7) 掌握 5 种 减少 Cache 不 命中 开销 的 方法 。 

(8) 掌握 4 种 减少 Cache 命中 时 间 的 方法 。 

(9) 理解 并 行 主 存 系统 ,掌握 单 体 多 字 并 行 存储 器 、 多 体 交 叉 存储 器 以 及 避免 存储 体 冲 
突 的 方法 。 

(10) 掌握 虚拟 存储 器 中 的 快速 地 址 转换 技术 。 

(11) 了 解 AMD Opteron 的 存储 器 层次 结构 。 


7.1.2 难点 
(1) Cache 的 基本 工作 原理 和 映像 规则 。 
(2) Cache 性 能 分 析 。 


(3) 虚拟 Cache。 
(4) 并 行 主 存 系 统 。 


7.2 知识 要 点 


7.2.1 存储 系统 的 层次 结构 


1. 存储 系统 的 层次 结构 
从 实现 “容量 大 ,价格 低 ” 的 要 求 来 看 ,应 采用 能 提供 大 容量 的 存储 器 技术 ; 但 从 满足 性 
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能 需求 的 角度 来 看 ,又 应 采用 昂贵 且 容 量 较 小 的 快速 存储 器 。 走 出 这 种 困境 的 唯一 方法 ,是 
采用 多 种 存储 器 技术 ,构成 多 级 存储 层次 结构 。 

1) 程序 访问 的 局 部 性 原理 

程序 访问 的 局 部 性 原理 是 指 : 对 于 绝 大 多 数 程序 来 说 ,程序 所 访问 的 指令 和 数据 在 地 
址 上 不 是 均匀 分 布 的 ,而 是 相对 簇 聚 的 。 它 是 构成 存储 层次 的 基础 原理 。 

2) 存储 系统 的 多 级 层次 结构 

存储 系统 的 多 级 层次 结构 如 图 7. 1 所 示 。 其 中 ,Mi ,M: ,…,M, 是 用 不 同 技术 实现 的 存 
储 器 。 假 设 第 i 个 存储 器 M; 的 访问 时 间 为 T; ,容量 为 S;, 平 均 每 位 价格 为 C;, 则 该 存储 系 
统 中 个 存储 器 的 参数 满足 以 下 关系 : 

访问 时 间 : Ti< < 

容量 : i 

平均 每 位 价格 : Ci> C: 二 … 记 CC, 

整个 存储 系统 要 达到 的 目标 是 : 从 CPU 来 看 ,该 存储 系统 的 速度 接近 于 M 的 ,而 容量 
和 每 位 价格 都 接近 于 M, 的 。 

存储 层次 














CPU -一 



































图 7.1 存储 系统 的 层次 结构 


在 存储 层次 中 ,各 存储 器 之 间 一 般 满 足 包 容 关系 , 即 任何 一 层 存 储 器 中 的 内 容 都 是 其 下 
一 层 ( 离 CPU 更 远 的 一 层 ) 存 储 器 中 内 容 的 子 集 。CPU 与 M 之 间 传 送信 息 一 般 是 以 字 为 
单位 ,Mi 以 外 ( 含 M1) 的 相 邻 存储 器 之 间 一 般 以 块 或 页 面 为 单位 传送 信息 。 


2. 存储 系统 的 性 能 参数 


为 简单 起 见 ,我 们 仅 考虑 由 Mi 和 Ms 两 个 存储 器 构成 的 两 级 存储 层次 结构 ,M 的 容量 、 
访问 时 间 和 每 位 价格 分 别 为 S1 , ,C1; M; 的 参数 为 S;,T,,C;。 

1) 存储 容量 S 

一 般 来 说 ,整个 存储 系统 的 容量 即 是 第 二 级 存储 器 M: 的 容量 , 即 S=S,。 

2) 存储 系统 的 平均 每 位 价格 C 


C2 Cs 十 Cs 


Si 十 S:z 





显然 , 当 S,<<<S: 时 ,CC 。 
3) 命中 率 日 
命中 率 玉 的 定义 为 : CPU 访问 该 存储 系统 时 ,在 Mi 中 找到 所 需 信息 的 概率 。 其 计算 
公式 为 : 
一 Ni 
和 Ni 十 Na 
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其 中 ,Ni 和 Na 分别 为 访问 MX 和 Ms 的 次 数 ,可 以 通过 模拟 执行 一 组 有 代表 人 性 的 程序 来 
获得 。 

不 命中 率 : F=1 一 HH 

4) 平 均 访 存 时 间 T。 

Ta=HTi+(—H)(Ti+Tw)=Ti+(— H)T 

或 人 一刀 十 FTw 

其 中 ,Tv 二 T 十 Te, 常 称 为 不 命中 开销 ,Ti 常 称 为 命中 时 间 。 

Ts 为 传送 一 个 信息 块 所 需 的 时 间 。 

3. 三 级 存储 系统 


目前 ,大 多 数 计算 机 都 采用 了 由 Cache( 高 速 缓冲 存储 器 ) . 主 存储 器 和 磁盘 存储 器 ( 辅 
存 ) 构 成 的 三 级 存储 系统 。 这 个 存储 系统 可 以 看 成 是 由 “Cache- 主 存 ” 层 次 和 “ 主 存 - 辅 存 ”" 层 
次 构成 的 系统 。 

1)“Cache- 主 存 ” 层 次 

近 十 多 年 ,CPU 的 性 能 提高 得 很 快 ,但 主 存 性 能 的 提高 却 慢 得 多 。 因 此 ,CPU 和 主 存 
之 间 在 速度 上 的 差距 越 来 越 大 。 为 了 填补 这 个 差距 ,现代 计算 机 都 是 在 CPU 和 主 存 之 间 
设置 一 个 高 速 缓冲 存储 器 Cache。 这 个 Cache 对 于 提高 整个 计算 机 系统 的 性 能 有 着 重要 的 
意义 ,几乎 是 一 个 不 可 缺少 的 部 件 。 一 般 来 说 ,这 个 层次 的 工作 完全 由 硬件 实现 ,所 以 它 不 
但 对 应 用 程序 员 是 透明 的 ,而 且 对 系统 程序 员 也 是 透明 的 。 

2)“ 主 存 - 辅 存 ” 层 次 

这 个 层次 的 目的 是 为 了 弥补 主 存 容 量 的 不 足 。 它 是 在 主 存 外 面 增设 一 个 容量 更 大 、 每 
位 价格 更 低 、 但 速度 更 慢 的 存储 器 ( 称 为 辅 存 ,一 般 是 硬盘 ) 。 它 们 依靠 辅助 软 硬 件 的 作用 ， 
构成 一 个 整体 。“ 主 存 - 辅 存 ”层次 常 被 用 来 实现 虚拟 存储 器 ,向 编程 人 员 提 供 “ 用 不 完 ” 的 程 
序 空间 。 

3) 两 者 的 比较 

表 7.1 对 “Cache- 主 存 " 和 “ 主 存 - 辅 存 " 层 次 做 了 一 个 简单 的 比较 。 


表 7.1 “Cache- 主 存 ” 与 “ 主 存 - 辅 存 " 层 次 的 区 别 


























存储 层次 a 
We Cache- 主 存 ” 层 次 主 存 - 辅 存 "层次 
目的 为 了 弥补 主 存 速 度 的 不 足 为 了 弥补 主 存 容 量 的 不 足 
存储 管理 的 实现 全 部 由 专用 硬件 实现 主要 由 软件 实现 
访问 速度 的 比值 
(第 一 级 比 第 二 级 ) di 有 
典型 的 块 (页 ) 大 小 几 十 个 字 节 几 百 到 几 千 个 字 节 
CPU 对 第 二 级 的 访问 方式 可 直接 访问 均 通过 第 一 级 
不 命中 时 CPU 是 否 切换 不 切换 切换 到 其 他 进程 


4. 存储 层次 的 4 个 问题 


下 面 将 展开 论述 “Cache- 主 存 " 层 次 。 首 先 要 考虑 以 下 4 个 问题 。 
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(1) 当 把 一 个 块 ( 页 ) 调 和 人 高 一 层 (靠近 CPU) 存 储 器 时 ,可 以 放 到 哪些 位 置 上 ? (映像 
规则 ) 

(2) 当 所 要 访问 的 块 (页 ) 在 高 一 层 存 储 器 中 时 ,如何 找 到 该 块 ? (查找 算法 ) 

(3) 当 发 生 不 命中 而 且 高 一 层 存 储 器 已 经 满 时 ,应 替换 哪 一 块 ? (替换 算法 ) 

(4) 当 进 行 写 访问 时 ,应 进行 哪些 操作 ? ( 写 策略 ) 

搞 清楚 这 些 问题 ,对 于 理解 一 个 具体 存储 层次 的 工作 原理 是 十 分 重要 的 。 


7.2.2 ” Cache 基本 知识 


1. 基本 结构 和 原理 
略 。 
2. 映像 规则 


当 要 把 一 个 块 从 主 存 调 人 Cache 时 ,可 以 放置 到 哪些 位 置 ? 这 就 是 映像 规则 所 要 解决 
的 。 映 像 规则 有 以 下 3 种 。 

1) 全 相 联 映像 

全 相 联 是 指 主 存 中 的 任 一 块 可 以 被 放置 到 Cache 中 的 任意 一 个 位 置 。 

2) 直接 映像 

直接 映像 是 指 主 存 中 的 每 一 个 块 只 能 被 放置 到 Cache 中 唯一 的 一 个 位 置 。 从 主 存 块 到 
Cache 块 的 对 应 关系 是 依次 循环 分 配 的 。 

一 般 地 ,如 果 主 存 的 第 i 块 ( 即 块 地 址 为 门 映像 到 Cache 块 的 第 j 块 , 则 : 

j=imodM 

其 中 ,M 为 Cache 的 块 数 。 

设 M=2”, 则 当 表 示 为 二 进 制 数 时 ,j 实际 上 就 是 i 的 低 m 位 。 

3) 组 相 联 映像 

在 组 相 联 映像 中 ,Cache 被 等 分 为 若干 组 ,每 组 由 若干 个 块 构成 。 主 存 中 的 每 一 块 可 以 
被 放置 到 Cache 中 唯一 的 一 个 组 中 的 任何 一 个 位 置 。 它 是 直接 映像 和 全 相 联 的 一 种 折 中 。 
组 的 选择 常 采用 位 选择 算法 , 即 对 于 主 存 的 第 i 块 ,车 它 所 映像 到 Cache 组 的 组 号 为 ， 
则 有 : 

k=imodG 

其 中 ,G 为 Cache 的 组 数 。 

设 G=2, 则 当 表示 为 二 进 制 数 时 ,k 实际 上 就 是 i 的 低 g 位 。 

这 里 的 低 g 位 以 及 上 述 直 接 映 像 中 的 低 m 位 通常 称 为 索引 (index) 。 

如 果 每 组 中 及 n 个 块 (一 M/G), 则 称 该 映像 规则 为 n 路 组 相 联 。 

相 联 度 越 高 ( 即 n 的 值 越 大 ),Cache 空间 的 利用 率 就 越 高 , 块 冲突 概率 就 越 低 , 因 而 
Cache 的 不 命中 率 就 越 低 。 块 冲突 是 指 当 要 把 一 个 主 存 块 调 入 Cache 时 , 按 映像 规则 所 对 
应 的 Cache 块 位 置 都 已 经 被 占用 。 绝 大 多 数 计算 机 都 采用 直接 映像 ,两 路 组 相 联 或 4 路 组 
相 联 。 特 别 是 直接 映像 ,应 用 得 最 多 。 
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3. 查找 方法 


Cache 中 设 有 一 个 目录 表 , 每 一 个 Cache 块 在 该 表 中 都 有 唯一 的 一 项 ,用 于 指出 当前 该 
块 中 存放 的 信息 是 哪个 主 存 块 的 。 它 实际 上 是 记录 了 该 主 存 块 的 块 地 址 的 高 位 部 分 , 称 为 
标识 (tag)。 每 个 主 存 块 能 唯一 地 由 其 标识 来 确定 。 标 识 在 主 存 块 地 址 中 的 位 置 如 图 7. 2 
所 示 。 





主 存 地 址 : 标识 索引 块 内 位 移 

















块 地址 
7.2 主 存 地 址 的 分 割 


由 于 目录 表 中 存放 的 是 标识 ,所 以 存放 目录 表 的 存储 器 又 称 为 标识 存储 器 。 目 录 表 中 
给 每 一 项 设置 一 个 有 效 位 ,用 该 位 为 “1 表示 Cache 中 相应 块 所 包含 的 信息 有 效 。 

根据 映像 规则 不 同 ,一 个 主 存 块 可 能 映像 到 Cache 中 的 一 个 或 多 个 Cache 块 位 置 。 为 
便于 讨论 ,我 们 把 它们 称 为 候选 位 置 。 当 CPU 访问 该 主 存 块 时 ,必须 且 只 须 查找 它 的 候选 
位 置 的 目录 表 项 (标识 )。 为 了 保证 速度 ,对 各 候选 位 置 的 标识 的 检查 应 并 行进 行 。 

在 采用 直接 映像 或 组 相 联 映像 的 情况 下 ,为 了 提高 访问 速度 ,一般 是 把 * 主 存 一 Cache” 
地 址 变换 和 访问 Cache 存储 体 安 排 成 同时 进行 。 这 时 ,由 于 还 不 知道 哪个 候选 位 置 上 有 所 
要 访问 的 数据 ,所 以 就 把 所 有 候选 位 置 中 的 相应 信息 都 读 出 来 ,在 “ 主 存 一 Cache” 地 址 变换 
完成 后 ,再 根据 其 结果 从 这 些 信 息 中 选 一 个 (如 果 命 中 ) ,发 送 给 CPU 。 

直接 映像 Cache 的 候选 位 置 最 少 , 只 有 一 个 ; 全 相 联 Cache 的 候选 位 置 最 多 ,为 M 个 ; 
而 路 组 相 联 则 介 于 两 者 之 间 , 为 n 个 。 实 现 并 行 查找 的 方法 有 两 种 : 用 相 联 存储 器 实 
现 ; @ 用 单 体 多 字 的 按 地 址 访问 的 存储 器 和 比较 器 来 实现 。 

采用 第 四 种 方法 时 ,其 目录 由 2 个 相 联 存储 区 构成 ,每 个 相 联 存 储 区 的 大 小 为 nX(h 十 
logzn) (h 为 标识 的 位 的 位 数 ) , 需 用 相 联 存储 器 来 实现 。 查 找 时 ,是 用 索引 从 2 个 相 联 存储 
区 找 出 相应 的 区 ,然后 进行 相 联 比较 。 找 出 其 组 内 块 地 址 。 

采用 第 @ 种 方法 时 ,需要 一 个 大 小 为 2 XnXh 位 的 按 地 址 访问 的 存储 器 和 个 h 位 的 
比较 器 。 查 找 时 ,是 用 索引 从 2* 行 中 选 出 一 行 n 个 标识 ,然后 将 这 些 标识 与 本 次 访问 的 标 
识 并 行进 行 比较 。 并 根据 比较 结果 去 选择 相应 的 数据 。 当 相 联 度 增加 时 ,不 仅 比 较 器 的 
个 数 会 增加 ,而 且 比 较 器 的 位 数 也 会 增加 。 


4. Cache 的 工作 过 程 


下 面 以 DEC 的 Alpha AXP 21064 微 处 理 器 中 的 数据 Cache 为 例 ,来 介绍 Cache 的 工 
作 过 程 。 图 7. 3 为 其 结构 框图 。 这 是 一 个 容量 为 8KB 的 直接 映像 Cache, 块 大 小 为 32B, 共 
有 256 个 块 。 采 用 写 直 达 法 , 写 缓冲 器 的 大 小 为 4 个 块 。 

下 面 参照 图 7. 3 来 介绍 访问 Cache 的 工作 过 程 ( 图 中 带 圈 的 数字 表示 步 又 的 顺序 ) 。 

21064 微 处 理 器 传送 给 Cache 的 物理 地 址 为 34 位 (图 中 的 四)。 这 个 地 址 被 分 为 两 部 
分 : 块 地 址 (29 位 ) 和 块 内 位 移 (5 位 )。 块 地 址 又 进一步 被 分 为 标识 和 索引 。 

第 @ 步 是 用 索引 作为 地 址 从 256 个 目录 项 中 选择 一 项 , 读 出 相应 的 标识 和 有 效 位 。 同 
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图 7.3 Alpha AXP 21064 微 处 理 器 中 数据 Cache 的 结构 


时 用 索引 作为 地 址 从 Cache 的 数据 体 中 选择 一 块 , 用 块 内 位 移 的 高 两 位 作为 偏 移 量 读 出 相 
应 的 数据 字 ( 每 个 块 为 4 个 字 ,每 个 字 为 8 个 字 节 )。 在 直接 映像 Cache 中 ,“ 读 出 数据 并 送 
往 CPU” 与 “ 读 出 标识 并 进行 匹配 ”这 两 个 过 程 可 以 并 行进 行 。 

第 @ 步 是 把 上 一 步 读 出 的 标识 与 CPU 送 来 的 物理 地 址 中 的 标识 进行 比较 。 如 果 标 识 
比较 的 结果 是 匹配 , 且 有 效 位 为 “1”, 就 表示 本 次 访问 Cache 命中 ,那么 最 后 一 步 ( 即 第 @ 步 ) 
就 是 发 信号 通知 CPU 取 走 数据 。21064 完成 这 4 步 需要 两 个 时 钟 周 期 。 

当 发 生 读 不 命中 时 ,Cache 向 CPU 发 出 一 个 暂停 信号 ,通知 它 等 待 ,并 从 下 一 级 存储 器 
中 新 调 入 一 个 数据 块 。 由 于 21064 的 数据 Cache 是 直接 映像 的 ,所 以 当 发 生 调 块 时 ,必然 引 
起 替换 。 

和 任何 Cache 一 样 ,在 21064 中 对 “ 写 ” 的 处 理 比 对 “ 读 ” 的 处 理 更 复杂 。 在 写 命中 的 情 
况 下 ,前 三 步 跟 上 面 是 一 样 的 。 最 后 ,在 确认 标识 比较 为 匹配 之 后 , 才 把 数据 写 入 。 

不 管 是 否 命中 ,21064 都 要 把 数据 写 和 人 主 存 ( 即 采 用 的 是 写 直 达 法 )。 为 了 提高 “ 写 ” 访 
问 的 速度 ,21064 设置 了 一 个 写 缓冲 器 。 这 个 写 缓冲 器 是 按 字 寻 址 的 , 它 含 有 4 个 块 ,每 块 
大 小 为 4 个 字 。 当 要 进行 写 人 操作 时 ,如 果 写 缓冲 器 不 满 ,那么 就 把 数据 和 完整 的 地 址 写 人 
缓冲 器 。 对 CPU 而 言 , 本 次 * 写 ?访问 已 完成 ,CPU 可 以 继续 往 下 执行 。 由 写 缓 冲 器 负责 把 
该 数据 写 人 主 存 。 


5. 替换 算法 


1) 替换 算法 

直接 映像 Cache 中 的 蔡 换 很 简单 ,因为 只 有 一 个 块 , 别 无 选择 。 而 在 组 相 联 和 全 相 联 
Cache 中 , 则 有 多 个 块 供 选 择 ,我 们 当然 希望 应 尽 可 能 避免 替换 掉 马 上 就 要 用 到 的 信息 。 主 
要 的 替换 算法 有 以 下 3 种 。 

(1) 随机 法 

这 种 方法 随机 地 选择 被 替换 的 块 。 其 优点 是 简单 ,易于 用 硬件 实现 ,但 这 种 方法 没有 考 
虑 Cache 块 过 去 被 使 用 的 情况 ,反映 不 了 程序 的 局 部 性 ,所 以 命中 率 比 较 低 。 
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(2) 先进 先 出 法 (First-In-First-Out,FIFO) 

这 种 方法 选择 最 早 调 入 的 块 作为 被 替换 的 块 。 其 优点 也 是 容易 实现 。 它 虽然 利用 了 同 
一 组 中 各 块 进入 Cache 的 先后 顺序 这 一 “历史 ”信息 ,但 还 是 不 能 正确 地 反映 程序 的 局 部 性 。 
因为 最 先进 入 的 块 , 也 可 能 是 经 常 要 用 到 的 块 。 

(3) 最 近 最 少 使 用 法 (Least Recently Used,LRU) 

这 种 方法 本 来 是 选择 近期 使 用 次 数 最 少 的 块 作为 被 蔡 换 的 块 。 但 由 于 其 实现 比较 复 
杂 , 现 在 实际 上 实现 的 LRU 都 只 是 选择 最 久 没 有 被 访问 过 的 块 ( 也 称 为 LFU 算法 ) 。 

LRU 能 较 好 地 反映 程序 的 局 部 性 原理 ,因而 其 命中 率 在 上 述 3 种 方法 中 是 最 高 的 。 但 
是 LRU 比较 复杂 ,硬件 实现 成 本 比较 高 ,特别 是 当 组 的 大 小 增加 时 ,LRU 的 实现 代价 会 越 
来 越 高 。 

LRU 和 随机 法 分 别 因 其 不 命中 率 低 和 实现 简单 而 被 广泛 采用 。 不 过 ,有 模拟 数据 表 
明 ,对 于 容量 很 大 的 Cache,LRU 和 随机 法 的 命中 率 差 别 不 大 。 

2) LRU 算法 的 硬件 实现 

(1) 堆栈 法 

这 种 方法 是 用 一 个 堆栈 来 记录 组 相 联 Cache 的 同一 组 中 各 块 被 访问 的 先后 次 序 。 这 个 
先后 次 序 是 用 堆栈 元 素 的 物理 位 置 来 反映 的 ,从 栈 底 到 栈 顶 的 先后 次 序 依次 记录 了 该 组 中 
各 块 被 访问 的 先后 次 序 ( 存 放 的 是 组 内 块 地 址 )。 栈 项 记录 的 是 刚 访 问 过 的 块 ,次 栈 项 记录 
的 是 前 一 次 刚 被 访问 过 的 块 …… 栈 底 记 录 的 是 最 早 被 访问 过 的 块 。 这 样 , 当 需要 替换 时 ,就 
可 以 从 栈 底 得 到 应 该 被 替换 的 块 ( 块 地址 ) 。 

显然 , 随 着 Cache 访问 的 发 生 , 该 堆栈 中 的 内 容 必须 动态 更 新 ,以 便 保 持 该 堆栈 的 上 述 
属性 。 当 Cache 访问 命中 时 ,通过 用 块 地 址 进行 相 联 查找 ,在 堆栈 中 找到 相应 的 元 素 , 然 后 
把 该 元 素 的 上 面 的 所 有 元 素 下 压 一 个 位 置 ,同时 把 本 次 访问 的 块 地 址 抽出 来 ,从 最 上 面 压 人 
栈 顶 。 而 该 元 素 下 面 的 所 有 元 素 则 保持 不 动 。 

如 果 Cache 访问 不 命中 , 则 把 本 次 访问 的 块 地 址 从 最 上 面 压 入 栈 顶 ,堆栈 中 所 有 原来 的 
元 素 都 下 移 一 个 位 置 。 如 果 Cache 中 该 组 已 经 没有 空闲 块 , 就 要 替换 一 个 块 。 这 时 从 栈 底 
被 挤 出 去 的 块 地 址 就 是 需要 被 替换 的 块 的 块 地 址 。 

(2) 比较 对 法 

比较 对 法 的 基本 思路 是 让 各 块 两 两 组 合 , 构 成 比较 对 。 每 一 个 比较 对 用 一 个 触发 器 的 
状态 来 表示 它 所 相关 的 两 个 块 最 近 一 次 被 访问 的 远近 次 序 , 再 经 过 门 电 路 就 可 找到 LRU 
块 。 例 如 ,对 于 由 A、B、C 组 成 的 组 来 说 ,用 Taa 为 "1? 表 示 A 比 B 更 近 被 访问 过 ; Tap 为 “0” 
表示 B 比 A 更 近 被 访问 过 。Tac、Tac 也 是 按 这 样 的 规则 定义 。 则 有 : 

CrRu = TAc。Tec 





同 理 可 得 : 
Birv = Tas* Tec 
Au Ss Ti 外 Tc 
所 需要 的 触发 器 的 个 数 与 两 两 组 合 的 比较 对 的 数目 相同 。 这 是 一 个 忆 中 取 2 的 组 合 
问题 : Ch 二 PX(P 一 1)。 在 块 数 少时 , 它 所 需要 的 硬件 较 少 , 比 前 面 的 堆栈 法 更 容易 实现 。 
但 随 着 组 内 块 数 P 的 增加 , 它 所 需 的 触发 器 的 个 数 会 以 平方 的 关系 迅速 增加 , 门 的 输入 端 
数 也 线性 增加 。 当 尸 超 过 8 时 ,所 需要 的 触发 器 个 数 就 多 得 不 能 承受 了 。 不 过 在 这 种 情况 


150 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





下 可 以 用 多 级 状态 位 技术 来 减少 所 需 的 硬件 。 
6. 写 策略 


按照 存储 层次 的 要 求 ,Cache 内 容 应 是 主 存 部 分 内 容 的 一 个 副本 。 但 是 * 写 "访问 却 可 
能 导致 它们 内 容 的 不 一 致 。 这 就 产生 了 Cache 与 主 存 内 容 的 一 致 性 问题 。 显 然 , 为 了 保证 
正确 性 , 主 存 的 内 容 也 必须 更 新 。 至 于 何 时 更 新 ,这 正 是 写 策略 所 要 解决 的 问题 。 

写 策略 是 区 分 不 同 Cache 设计 方案 的 一 个 重要 标志 。 写 策略 主要 有 以 下 两 种 。 

(1) 写 直 达 法 。 也 称 为 存 直达 法 。 它 是 指 在 执行 “ 写 ” 操 作 时 ,不 仅 把 数据 写 入 Cache 
中 相应 的 块 ,而 且 也 写 入 下 一 级 存储 器 。 这 样 下 一 级 存储 器 中 的 数据 都 是 最 新 的 。 

(2) 写 回 法 。 也 称 为 拷 回 法 。 这 种 写 策略 只 把 数据 写 入 Cache 中 相应 的 块 , 不 写 人 下 
一 级 存储 器 。 这 样 有 些 数据 的 最 新 版 本 是 在 Cache 中 。 这 些 最 新 数据 只 有 在 相应 的 块 被 蔡 
换 时 , 才 被 写 回 下 一 级 存储 器 。 

写 回 法 和 写 直达 法 各 有 特色 。 写 回 法 的 优点 是 速度 快 ,“ 写 ”操作 能 以 Cache 的 速度 进 
行 。 而 且 所 有 “ 写 ” 只 到 达 Cache。 对 于 同一 单元 的 多 次 写 来 说 ,最 后 只 需 一 次 写 回 下 一 级 
存储 器 ,因而 减少 了 对 存储 器 带宽 的 要 求 。 这 使 得 写 回 法 对 于 多 处 理 机 很 有 吸引 力 。 写 直 
达 法 的 优点 是 易于 实现 ,而 且 下 一 级 存储 器 中 的 数据 总 是 最 新 的 。 后 一 个 优点 对 于 IO 和 
多 处 理 机 来 说 是 重要 的 。 

采用 写 直达 法 时 ,为 了 减少 写 停顿 ,常用 方法 是 采用 写 缓 冲 器 。CPU 一 旦 把 数据 写 人 
该 缓冲 器 ,就 可 以 继续 执行 ,从 而 使 下 一 级 存储 器 的 更 新 和 CPU 的 执行 重 释 起 来 。 


7. Cache 性 能 分 析 


虽然 用 不 命中 率 来 评价 存储 系统 的 性 能 非常 方便 ,但 它 也 容易 产生 一 些 误 导 。 平 均 访 
存 时 间 是 一 种 更 好 的 评测 存储 系统 性 能 的 指标 。 
平均 访 存 时 间 二 命中 时 间 十 不 命中 率 X 不 命中 开销 
平均 访 存 时 间 的 两 个 组 成 部 分 既 可 以 用 绝对 时 间 , 也 可 以 用 时 钟 周期 数 来 衡量 。 
平均 访 存 时 间 仍 然 是 衡量 性 能 的 一 个 间接 指标 ,尽管 它 比 不 命中 率 更 好 ,但 并 不 能 代替 
程序 执行 时 间 。 执 行 一 个 程序 所 需 的 CPU 时 间 能 更 好 地 反映 存储 系统 的 性 能 。 
CPU 时 间 = (CPU 执行 周期 数 十 存储 器 停顿 周期 数 ) x 时 钟 周期 时 间 (7. 1) 
在 这 个 公式 中 ,一 般 是 把 Cache 命中 所 用 的 时 钟 周期 数 看 成 是 CPU 执行 的 时 钟 周期 数 
的 一 部 分 。 
存储 器 停顿 时 钟 周期 数 = 访 存 次 数 x 不 命中 率 x 不 命中 开销 (7.2 
由 于 “ 读 ” 和 “ 写 ” 的 不 命中 率 和 不 命中 开销 通常 是 不 相等 的 ,所 以 这 只 是 一 个 近似 公式 。 
把 式 (7.2) 代 入 式 (7.1) ,得 : 
CPU 时 间 = (CPU 执行 周期 数 十 访 存 次 数 X 不 命中 率 x 不 命中 开销 ) x 时 钟 周期 时 间 
提取 公 因 子 “ 指 令 数 ”(IC) ,得 : 
CPU 时间 = ICX [cpreee 十 x 不 命中 率 x 不 命中 开销 ]x 时 钟 周期 时 间 
一 IC X (CPIcweewion 十 每 条 指令 的 平均 访 存 次 数 X 不 命中 率 X 不 命中 开销 ) X 
时 钟 周期 时 间 
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Cache 的 行为 可 能 会 对 系统 性 能 产生 巨大 的 影响 。 而 且 ,Cache 不 命中 对 于 一 个 CPI 
较 小 而 时 钟 频率 较 高 的 CPU 来 说 ,影响 是 双重 的 。 

(1) CPlcxecwsion 越 低 , 固 定 周期 数 的 Cache 不 命中 开销 的 相对 影响 就 越 大 。 

(2) 在 计算 CPI 时 ,不 命中 开销 的 单位 是 时 钟 周期 数 。 因 此 ,即使 两 台 计 算 机 的 存储 层 
次 完全 相同 ,时 钟 频率 较 高 的 CPU 的 不 命中 开销 较 大 ,其 CPI 中 存储 器 停顿 这 部 分 也 就 较 
大 。 因 此 Cache 对 于 低 CPI、 高 时 钟 频 率 的 CPU 来 说 更 加 重要 。 

尽 可 能 地 减少 平均 访 存 时 间 是 一 个 合理 的 目标 ,而 且 在 本 章 许多 地 方 我 们 也 是 使 用 平 
均 访 存 时 间 这 个 指标 的 ,但 是 请 记 住 ,我 们 的 最 终 目标 是 减少 CPU 的 执行 时 间 。 对 于 一 种 
Cache 方案 来 说 ,如 果 它 能 减少 平均 访 存 时 间 , 但 会 增加 CPU 时 间 , 那 么 这 种 方案 就 不 
可 取 。 


8. 改进 Cache 性 能 


根据 平均 访 存 时 间 公式 : 
平均 访 存 时 间 一 命 中 时 间 十 不 命中 率 义 不 命中 开销 

可 知 , 可 以 从 以 下 3 个 方面 改进 Cache 的 性 能 : 

(1) 降低 不 命中 率 ; 

(2) 减少 不 命中 开销 ; 

(3) 减少 命中 时 间 。 

下 面 将 介绍 17 种 Cache 优化 技术 ,其 中 8 种 用 于 降低 不 命中 率 ,5 种 用 于 减少 不 命中 
开销 ,4 种 用 于 减少 命中 时 间 。 


7.2.3 降低 Cache 不 命中 率 


本 节 介 绍 8 种 降低 不 命中 率 的 方法 。 需 要 注意 的 是 ,许多 降低 不 命中 率 的 方法 会 增加 
命中 时 间或 不 命中 开销 。 因 此 ,在 具体 使 用 时 ,要 综合 考虑 ,保证 降低 不 命中 率 确实 能 使 整 
个 系统 速度 提高 。 


1. 三 种 类 型 的 不 命中 


按照 产生 不 命中 的 原因 不 同 , 可 以 把 不 命中 分 为 以 下 3 类 (简称 为 3C) 。 

(1) 强制 性 不 命中 : 当 第 一 次 访问 一 个 块 时 ,该 块 不 在 Cache 中 , 需 从 下 一 级 存储 器 中 
调和 人 Cache, 这 就 是 强制 性 不 命中 。 这 种 不 命中 也 称 为 冷 启动 不 命中 或 首次 访问 不 命中 。 

(2) 容量 不 命中 : 如 果 程 序 执行 时 所 需 的 块 不 能 全 部 调 入 Cache 中 , 则 当 某 些 块 被 蔡 
换 后 , 若 又 重新 被 访问 ,就 会 发 生 不 命中 。 这 种 不 命中 称 为 容量 不 命中 。 

(3) 冲突 不 命中 : 在 组 相 联 或 直接 映像 Cache 中 , 若 太 多 的 块 映像 到 同一 组 ( 块 ) 中 , 则 
会 出 现 该 组 中 某 个 块 被 别 的 块 替换 然后 又 被 重新 访问 的 情况 。 这 就 是 发 生 了 冲突 不 命中 。 
这 种 不 命中 也 称 为 碰撞 不 命中 或 干扰 不 命中 。 

在 3C 中 ,冲突 不 命中 似乎 是 最 容易 减少 的 ,只 要 采用 全 相 联 ,就 不 会 发 生 冲 突 不 命中 。 
但 是 ,用 硬件 实现 全 相 联 是 很 昂贵 的 ,而 且 有 可 能 会 降低 处 理 器 的 时 钟 频率 ,从 而 导致 整体 
性 能 的 下 降 。 至 于 容量 不 命中 ,除了 增 大 Cache 以 外 ,没有 别 的 办 法 。 
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另 一 个 减少 3C 的 方法 是 增加 块 的 大 小 ,以 减少 强制 性 不 命中 。 但 在 下 面 我 们 将 看 到 ， 
块 大 小 增 大 可 能 会 增加 其 他 类 型 的 不 命中 。 


2. 增加 Cache 块 大 小 


降低 不 命中 率 最 简单 的 方法 是 增加 块 大 小 。 但 是 ,模拟 结果 表明 : 对 于 给 定 的 Cache 
容量 , 当 块 大 小 从 16 字 节 开始 增加 时 ,不 命中 率 开始 是 下 降 , 但 后 来 反而 上 升 了 。 这 是 因为 
增加 块 大 小 会 产生 双重 作用 : 

(1) 增强 了 空间 局 部 性 ,减少 了 强制 性 不 命中 ; 

(2) 减少 了 Cache 中 块 的 数目 ,所 以 有 可 能 会 增加 冲突 不 命中 。 

在 块 大 小 比较 小 的 情况 下 ,上 述 的 第 一 种 作用 超过 第 二 种 作用 ,从 而 使 不 命中 率 下 降 。 
但 等 到 块 大 小 较 大 时 ,第 二 种 作用 超过 第 一 种 作用 ,就 反而 使 不 命中 率 上 升 了 。Cache 容量 
越 大 ,使 不 命中 率 达 到 最 低 的 块 大 小 就 越 大 。 


3. 增加 Cache 的 容量 


降低 Cache 不 命中 率 最 直接 的 方法 是 增加 Cache 的 容量 。 不 过 ,这 种 方法 不 但 会 增加 
成 本 ,而 且 还 可 能 增加 命中 时 间 。 这 种 方法 在 片 外 Cache 中 用 得 比较 多 。 


4. 提高 相 联 度 


在 相 联 度 方面 ,有 两 条 经 验 规 则 。 中 从 实际 应 用 的 角度 来 看 ,在 降低 不 命中 率 方面 ,8 
路 组 相 联 的 作用 已 经 和 全 相 联 一 样 有 效 。 也 就 是 说 ,采用 相 联 度 超 过 8 的 方案 的 实际 意义 
不 大 。@2 : 1 Cache 经 验 规则 , 即 容量 为 N 的 直接 映像 Cache 的 不 命中 率 和 容量 为 N/2 
的 两 路 组 相 联 Cache 的 不 命中 率 差不多 相同 。 

一 般 来 说 ,改进 平均 访 存 时 间 的 某 一 方面 是 以 损失 另 一 方面 为 代价 的 。 例 如 ,增加 块 大 
小 会 增加 不 命中 开销 ,而 提高 相 联 度 则 是 以 增加 命中 时 间 为 代价 。 为 了 实现 很 高 的 处 理 器 
时 钟 频率 ,需要 设计 结构 简单 的 Cache; 但 时 钟 频率 越 高 ,不 命中 开销 就 越 大 (所 需 的 时 钟 周 
期 数 越 多 ) 。 为 减少 不 命中 开销 ,又 要 求 提高 相 联 度 。 


5. 伪 相 联 Cache 


伪 相 联 Cache 又 称 为 列 相 联 Cache。 它 既 能 获得 多 路 组 相 联 Cache 的 低 不 命中 率 ,又 
能 保持 直接 映像 Cache 的 命中 速度 。 

当 对 伪 相 联 Cache 进行 访问 时 ,首先 是 按 与 直接 映像 相同 的 方式 进行 访问 。 如 果 命 中 ， 
则 从 相应 的 块 中 取出 所 访问 的 数据 , 送 给 CPU ,访问 结束 。 这 与 直接 映像 Cache 中 的 情况 
完全 相同 ; 但 如 果 是 不 命中 ,就 与 直接 映像 Cache 不 同 了 , 伪 相 联 Cache 会 检查 Cache 另 一 
个 位 置 ( 块 ) ,看 是 否 匹 配 。 确 定 这 个 “ 另 一 块 " 的 一 种 简单 的 方法 是 将 索引 字段 的 最 高 位 取 
反 , 然 后 按照 新 索引 去 寻找 “ 伪 相 联 组 ”中 的 对 应 块 。 如 果 这 一 块 的 标识 匹配 , 则 称 发 生 了 
“ 伪 命 中 ”。 否 则 ,就 只 好 访问 下 一 级 存储 器 。 

伪 相 联 Cache 具有 一 快 一 慢 两 种 命中 时 间 ,它们 分 别 对 应 于 正常 命中 和 伪 命 中 的 情况 。 
为 了 使 大 多 数 命中 都 成 为 快速 命中 ,要 能 够 指出 在 同一 组 的 两 个 块 中 访问 哪个 块 才 更 可 能 
是 快速 命中 。 一 种 简单 的 方法 是 : 当 出 现 伪 命 中 时 :交换 两 个 块 的 内 容 , 把 最 近 刚 访问 过 的 
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块 放 到 第 一 位 置 ( 即 按 直接 映像 所 对 应 的 块 ) 上。 这 是 因为 根据 局 部 性 原理 , 刚 访问 过 的 块 
很 可 能 就 是 下 一 次 要 访问 的 块 。 
伪 相 联 技术 往往 应 用 在 离 处 理 器 比较 远 的 Cache 上 ,例如 第 二 级 Cache。 


6. 硬件 预 取 


指令 和 数据 都 可 以 在 处 理 器 提出 访问 请 求 之 前 进行 预 取 。 预 取 内 容 可 以 直接 放 入 
Cache, 也 可 以 放 在 一 个 访问 速度 比 主 存 快 的 外 部 缓冲 器 中 。 指 令 预 取 通常 由 Cache 之 外 的 
硬件 完成 。 例 如 ,Alpha AXP 21064 微 处 理 器 在 发 生 指令 不 命中 时 取 两 个 块 : 被 请 求 指令 
块 和 顺序 的 下 一 指令 块 。 被 请 求 指令 块 返回 时 放 入 Cache, 而 预 取 的 指令 块 则 放 在 缓冲 
器 中 。 


7. 编译 器 控制 的 预 取 


这 是 另 一 种 预 取 方法 ,是 由 编译 器 在 程序 中 加 入 预 取 指 令 来 实现 预 取 , 这 些 指令 在 数据 
被 用 到 之 前 就 将 它们 取 到 寄存 器 或 Cache 中 。 按 照 预 取 的 处 理 方式 不 同 ,可 把 预 取 分 为 : 

(1) 故障 性 预 取 : 在 预 取 时 ,车 出 现 虚 地 址 故障 或 违反 保护 权限 ,就 会 发 生 异 常 。 

(2) 非 故 障 性 预 取 : 当 出 现 虚 地 址 故障 或 违反 保护 权限 时 ,不 发 生 异 常 , 而 是 会 放弃 预 
取 , 转 变 为 空 操 作 。 

只 有 在 预 取 数据 的 同时 处 理 器 还 能 继续 执行 的 情况 下 , 预 取 才 有 意义 。 这 就 要 求 
Cache 在 等 待 预 取 数据 返回 的 同时 ,还 能 继续 提供 指令 和 数据 。 这 种 灵活 的 Cache 称 为 非 
阻塞 Cache 或 非 锁定 Cache, 将 在 后 面 详细 讨论 。 


8. 编译 优化 


这 种 方法 是 通过 对 软件 进行 优化 来 降低 不 命中 率 。 与 其 他 降低 Cache 不 命中 率 的 方法 
相 比 ,这 种 方法 的 特色 是 无 须 对 硬件 做 任何 改动 。 

1) 程序 代码 和 数据 重组 

我 们 能 很 容易 地 重新 组 织 程序 而 不 影响 程序 的 正确 性 。 例 如 ,把 一 个 程序 中 的 过 程 重 
新 排序 ,就 可 能 会 减少 冲突 不 命中 ,从 而 降低 指令 不 命中 率 。 另 外 ,如 果 编 译 器 知道 一 个 分 
支 指令 很 可 能 会 成 功 转移 ,那么 它 就 可 以 通过 以 下 两 步 来 改善 空间 局 部 性 : 四 将 转移 目标 
处 的 基本 块 和 紧 跟 着 该 分 支 指令 后 的 基本 块 进 行 对 调 ; @ 把 该 分 支 指令 换 为 操作 语义 相反 
的 分 支 指令 。 

与 代码 相 比 ,数据 对 存储 位 置 的 限制 更 少 , 因 此 更 便于 调整 顺序 。 对 数据 进行 变换 的 目 
的 是 改善 其 空间 局 部 性 和 时 间 局 部 性 。 编 译 优化 技术 包括 数组 合并 ,内 外 循环 交换 、 循 环 融 
合 、 分 块 等 。 数 组 合并 是 将 本 来 相互 独立 的 多 个 数组 合并 成 为 一 个 复合 数组 ,以 提高 访问 它 
们 的 局 部 性 。 循 环 融 合 是 将 若干 个 独立 的 循环 融合 为 单个 的 循环 。 这 些 循 环 访问 同样 的 数 
组 ,对 相同 的 数据 做 不 同 的 运算 。 这 样 能 使 得 读 和 人 Cache 的 数据 在 被 替换 出 去 之 前 ,能 得 到 
反复 的 使 用 。 

2) 内 外 循环 交换 

有 些 程序 中 含有 嵌 套 循环 ,程序 不 是 按照 数据 在 存储 器 中 存储 的 顺序 进行 访问 。 在 这 
种 情况 下 ,只 要 简单 地 交换 循环 的 嵌 套 关系 ,就 能 使 程序 按 数据 在 存储 器 中 存储 的 顺序 进行 
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访问 。 这 种 技术 是 通过 提高 空间 局 部 性 来 减少 不 命中 次 数 。 

3) 分 块 

这 种 优化 可 能 是 Cache 优化 技术 中 最 著名 的 一 种 , 它 是 通过 提高 时 间 局 部 性 来 减少 不 
命中 。 我 们 还 是 以 对 多 个 数组 的 访问 为 例 ,有 些 数组 是 按 行 访问 ,而 有 些 则 是 按 列 访问 。 无 
论 数组 是 按 行 优先 还 是 按 列 优先 存储 ,都 不 能 解决 问题 ,因为 在 每 一 次 循环 中 既 有 按 行 访 问 
也 有 按 列 访问 。 这 种 正 交 的 访问 意味 着 前 面 的 变换 方法 ,如 内 外 循环 交换 ,对 此 无 能 为 力 。 

分 块 算法 不 是 对 数组 的 整 行 或 整 列 进行 访问 ,而 是 对 子 和 矩阵 或 块 进行 操作 。 其 目的 仍 
然 是 使 一 个 Cache 块 在 被 蔡 换 之 前 最 大 限度 地 利用 它 。 


9.“ 牺 牲 ”"Cache 


这 种 方法 是 在 Cache 和 其 下 一 级 存储 器 的 数据 通路 之 间 增 设 一 个 全 相 联 的 小 Cache， 
称 为 “牺牲 "Cache。“ 牺 牲 "Cache 中 存放 因 冲 突 而 被 替换 出 去 的 那些 块 ( 即 “牺牲 者 ”)。 每 
当 发 生 不 命中 时 ,在 访问 下 一 级 存储 器 之 前 , 先 检查 “牺牲 "Cache 中 是 否 含有 所 需 的 块 。 如 
果 有 ,就 将 该 块 与 Cache 中 某 个 块 做 交换 ,把 所 需 的 块 从 “牺牲 "Cache 调和 Cache。 


7.2.4 减少 Cache 不 命中 开销 


1. 采用 两 级 Cache 


当 一 级 Cache 不 能 满足 要 求 时 ,可 以 通过 在 原 有 Cache 和 存储 器 之 间 增 设 另 一 级 
Cache, 构 成 两 级 Cache。 这 样 ,就 可 以 把 第 一 级 Cache 做 得 足够 小 ,使 其 速度 和 快速 CPU 
的 时 钟 周期 相 匹 配 ; 同时 ,通过 把 第 二 级 Cache 做 得 足够 大 ,使 它 能 捕获 更 多 本 来 需要 到 主 
存 去 的 访问 ,从 而 降低 实际 不 命中 开销 。 

增加 一 级 存储 层次 在 概念 上 是 直观 和 简单 的 。 但 其 性 能 分 析 却 变 得 复杂 多 了 。 用 L1 
和 L2 分 别 表示 第 一 级 和 第 二 级 Cache, 则 原 有 的 平均 访 存 时 间 公式 就 变 为 ， 

平均 访 存 时 间 = 命中 时 间 u 十 不 命中 率 u X 不 命中 开销 
不 命中 开销 = 命中 时 间 1s 十 不 命中 率 1。 x 不 命中 开销 。 
所 以 ， 
平均 访 存 时 间 = 命中 时 间 u 十 不 命中 率 L, X (命中 时 间 十 不 命中 率 1。X 不 命中 开销 1 ) 
在 这 个 公式 里 ,第 二 级 Cache 的 不 命中 率 是 以 在 第 一 级 Cache 中 不 命中 而 到 达 第 二 级 
Cache 的 访 存 次 数 为 分 母 来 计算 的 。 为 避免 二 义 性 ,我 们 引入 以 下 两 个 术语 。 
1) 局 部 不 命中 率 
对 于 某 一 级 Cache 来 说 : 
局 部 不 命中 率 = 该 级 Cache 的 不 命中 次 数 / 到 达 该 级 Cache 的 访 存 次 数 

对 于 第 一 级 Cache 来 说 ,其 局 部 不 命中 率 就 是 上 面 的 不 命中 率 1 ,对 于 第 二 级 Cache 来 
说 ,就 是 上 面 的 不 命中 率 1,。 

2) 全 局 不 命中 率 

对 于 某 一 级 Cache 来 说 : 

全 局 不 命中 率 = 该 级 Cache 的 不 命中 次 数 /CPU 发 出 的 访 存 总 次 数 
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使 用 上 面 公式 中 的 变量 ,第 二 级 Cache 的 全 局 不 命中 率 就 是 : 
全 局 不 命中 率 , 二 不 命中 率 L1 X 不 命中 率 1。 

全 局 不 命中 率 是 一 个 比 局 部 不 命中 率 更 有 用 的 衡量 指标 , 它 指出 了 在 CPU 发 出 的 访 
存 中 ,究竟 有 多 大 比例 是 穿 过 各 级 Cache, 最 终 到 达 存 储 器 的 。 

采用 两 级 Cache 时 ,每 条 指令 的 平均 访 存 停顿 时 间 为 : 

每 条 指令 的 平均 访 存 停顿 时 间 = 每 条 指令 的 平均 不 命中 次 数 1， Xx 
命中 时 间 1s 十 每 条 指令 的 平均 不 命中 次 数 1。 xX 
不 命中 开销 1 

对 于 第 二 级 Cache, 有 以 下 结论 。 

(1) 在 第 二 级 Cache 比 第 一 级 Cache 大 得 多 的 情况 下 ,两 级 Cache 的 全 局 不 命中 率 和 
容量 与 第 二 级 Cache 相同 的 单 级 Cache 的 不 命中 率 非常 接近 。 这 时 可 以 利用 前 面 关于 单 级 
Cache 的 知识 和 结论 来 分 析 它 们 。 

(2) 局 部 不 命中 率 不 是 衡量 第 二 级 Cache 的 一 个 好 指标 ,在 评价 第 二 级 Cache 时 ,应 该 
用 全 局 不 命中 率 这 个 指标 。 

第 一 级 Cache 和 第 二 级 Cache 之 间 的 首要 区 别 是 : 第 一 级 Cache 的 速度 会 影响 CPU 
的 时 钟 频率 ,而 第 二 级 Cache 的 速度 只 影响 第 一 级 Cache 的 不 命中 开销 。 因 此 ,在 设计 第 二 
级 Cache 时 可 以 有 更 多 的 考虑 空间 ,许多 不 适合 于 第 一 级 Cache 的 方案 对 于 第 二 级 Cache 
却 可 以 使 用 。 设 计 第 二 级 Cache 只 有 两 个 问题 需要 权衡 ,一 个 是 它 能 否 降低 CPI 中 的 平均 
访 存 时 间 部 分 ” 另 一 个 是 它 的 成 本 是 多 少 ? 

第 二 级 Cache 的 容量 一 般 很 大 。 大 容量 意味 着 第 二 级 Cache 可 能 实际 上 没有 容量 不 命 
中 ,只 剩 下 一 些 强制 性 不 命中 和 冲突 不 命中 。 


2. 让 读 不 命中 优先 于 写 


在 写 直达 Cache 中 ,每 次 写 访问 都 要 对 主 存 进行 写 和 人。 为 了 提高 性 能 ,一般 都 是 设置 一 
个 大 小 适中 的 写 缓 冲 器 。 不 过 , 写 缓 冲 器 却 导致 存储 器 访问 的 复杂 化 ,因为 在 读 不 命中 时 ， 
所 读 单 元 的 最 新 值 有 可 能 还 在 写 缓冲 器 中 ,尚未 写 入 主 存 。 

解决 这 个 问题 常 采用 的 办 法 ,是 在 读 不 命中 时 检查 写 缓冲 器 的 内 容 , 看 看 有 没有 冲突 。 
如 果 有 冲突 ,就 只 好 等 待 。 和 否则 就 可 继续 处 理 读 不 命中 。 

在 写 回 法 Cache 中 ,也 可 以 利用 写 缓冲 器 来 提高 性 能 。 假 定 读 不 命中 将 替换 一 个 修改 
过 的 存储 块 。 我 们 可 以 不 像 往常 那样 先 把 该 块 写 回 存储 器 ,然后 再 从 存储 器 调 块 ,而 是 先 把 
被 蔡 换 的 块 临时 复制 到 一 个 缓冲 器 中 ,然后 从 存储 器 调 块 ,最 后 再 把 缓冲 器 中 的 内 容 写 信 存 
储 器 。 这 样 CPU 的 读 访 问 就 能 更 快 地 完成 。 


3. 写 缓冲 合并 





在 写 缓冲 器 不 为 空 的 情况 下 ,需要 把 这 次 的 写 人 地址 与 写 缓 冲 器 中 已 有 的 所 有 地 址 进 
行 比较 ,看 是 否 有 匹配 的 项 。 如 果 有 地 址 匹配 而 对 应 的 位 置 又 是 空闲 的 ,就 把 这 次 要 写 入 的 
数据 与 该 项 合并 。 这 就 叫 写 缓冲 合并 。 当 然 , 如 果 写 缓冲 器 满 且 没有 能 进行 写 合并 的 项 ,就 
只 好 等 待 。 
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4. 请 求 字 处 理 技 术 


当 从 存储 器 向 CPU 调 入 一 块 时 , 块 中 往往 只 有 一 个 字 是 CPU 立即 需要 的 ,这 个 字 称 
为 请 求 字 。 当 CPU 所 请 求 的 字 到 达 后 ,不 等 整个 块 都 调和 人 Cache, 就 可 把 该 字 发 送 给 CPU 
并 重启 CPU 继续 执行 。 有 以 下 两 种 具体 的 方案 。 

(1) 尽早 重启 动 : 在 请 求 字 没有 到 达 时 ,CPU 处 于 等 待 状态 。 一 旦 请 求 字 到 达 , 就 立即 
发 送 给 CPU ,让 等 待 的 CPU 尽早 重启 动 ,继续 执行 。 

(2) 请 求 字 优 先 : 调 块 时 ,让 存储 器 首先 提供 CPU 所 要 的 请 求 字 。 请 求 字 一 旦 到 达 ， 
就 立即 送 给 CPU ,让 CPU 继续 执行 ,同时 从 存储 器 调和 人 该 块 的 其 余部 分 。 请 求 字 优先 也 称 
为 关键 字 优 先 。 


5. 非 阻塞 Cache 技术 


有 些 流水 方式 的 机 器 采用 计 分 牌 或 Tomasulo 类 控制 方法 ,允许 指令 乱 序 执行 ,后 面 的 
指令 可 以 跨越 前 面 的 指令 先 执行 。CPU 无 须 在 Cache 不 命中 时 停顿 。 如 果 采 用 非 阻 塞 
Cache 或 非 锁 定 Cache 技术 ,就 可 以 把 CPU 的 性 能 提高 得 更 多 ,因为 这 种 Cache 在 不 命中 
时 仍 允许 CPU 进行 其 他 的 访问 (但 只 能 是 命中 的 访问 )。 这 种 “不 命中 下 的 命中 ”(hit under 
miss) 的 优化 措施 能 减少 实际 的 不 命中 开销 。 如 果 更 进一步 ,让 Cache 允许 多 个 不 命中 重 
释 , 即 支持 “多 重 不 命中 下 的 命中 ”或 “不 命中 下 的 不 命中 ”, 则 可 进一步 减少 实际 不 命中 开 
销 。 不 过 ,这 种 方法 只 有 在 存储 器 能 处 理 多 个 不 命中 的 情况 下 才能 带 来 好 处 。 


7.2.5 减少 命中 时 间 


减少 命中 时 间 是 设计 Cache 的 重要 工作 之 一 ,因为 它 直接 影响 到 处 理 器 时 钟 频率 的 高 
低 。 在 当今 的 许多 机 器 中 ,往往 是 Cache 的 访问 时 间 限 制 了 处 理 器 系统 时 钟 频率 的 提高 , 即 
使 在 把 Cache 访问 时 间 分 为 几 个 时 钟 周期 的 机 器 中 也 是 如 此 。 因 此 ,一 定 要 设法 减少 命中 
时 间 。 


1. 容量 小 .结构 简单 的 Cache 


为 了 有 效 地 减少 Cache 的 命中 时 间 ,可 以 采用 容量 小 、 结 构 简 单 的 Cache。 硬 件 越 简 
单 ,速度 就 越 快 。 而 且 应 使 Cache 容量 足够 小 以便 可 以 与 处 理 器 做 在 同一 芯片 上 ,避免 因 
片 外 访问 而 增加 时 间 开 销 。 这 一 点 是 非常 重要 的 。 此 外 ,还 要 保持 Cache 结构 的 简单 性 , 例 
如 采用 直接 映像 Cache。 直 接 映像 Cache 的 主要 优点 是 可 以 让 标识 检测 和 数据 传送 重 释 进 
行 , 从 而 有 效 地 减少 命中 时 间 。 


2. 虚拟 Cache 


在 采用 虚拟 存储 器 的 计算 机 中 ,每 次 访 存 都 必须 进行 虚实 地 址 的 转换 ,即将 CPU 发 出 
的 虚 地 址 转换 为 物理 地 址 ,这 一 般 是 由 存储 管理 部 件 MMU 完成 的 。 

1) 物理 Cache 

按照 访问 Cache 的 地 址 是 物理 地 址 还 是 虚拟 地 址 ,可 把 Cache 分 为 物理 Cache 和 虚拟 
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Cache。 物 理 Cache 是 指使 用 物理 地 址 进行 访问 的 传统 Cache, 其 标识 存储 器 中 存放 的 是 物 
理 地 址 ,进行 地 址 检测 也 是 用 物理 地 址 。 当 CPU 要 访问 存储 器 时 ,必须 先 由 MMU 把 虚拟 
地 址 转换 为 主 存 物 理 地 址 ,然后 再 用 物理 地 址 去 访问 Cache。 这 种 Cache 的 性 能 很 差 。 

2) 虚拟 Cache 

虚拟 Cache 是 指 可 以 直接 用 虚拟 地 址 进行 访问 的 Cache, 其 标识 存储 器 中 存放 的 是 虚 
拟 地 址 ,进行 地 址 检测 用 的 也 是 虚拟 地 址 。 当 CPU 要 访问 存储 器 时 ,把 虚拟 地 址 同时 送 给 
Cache 和 MMU ,Cache 根据 该 虚拟 地 址 把 CPU 所 需 的 数据 或 指令 找 出 来 。 如 果 Cache 不 
命中 ,就 要 用 经 过 MMU 转换 得 到 的 主 存 物理 地 址 访问 主 存 , 读 出 相应 的 块 , 装 和 Cache 
中 。 虚 拟 Cache 的 优点 是 在 命中 时 不 需要 地 址 转换 ,而 且 即 使 是 不 命中 ,地 址 转换 和 访问 
Cache 也 是 并 行进 行 的 ,其 速度 比 物理 Cache 快 很 多 。 

然而 ,并 非 所 有 计算 机 都 采用 虚拟 Cache。 其 原因 之 一 ,是 每 当 进 行进 程 切换 时 需要 清 
空 Cache。 这 是 由 于 新 进程 的 虚拟 地 址 有 可 能 与 原 进程 的 相同 ,但 它们 所 指向 的 物理 空间 
却 是 不 同 的 。 解 决 这 个 问题 的 一 种 办 法 是 在 地 址 标识 中 增加 一 个 进程 标识 符 字段 (PID)， 
这 样 多 个 进程 的 数据 可 以 混合 存放 于 Cache 中 ,由 PID 指出 Cache 中 的 各 块 是 属于 哪个 程 
序 的。 为 了 减少 PID 的 位 数 ,PID 经 常 是 由 操作 系统 指定 。 

虚拟 Cache 没有 流行 起 来 的 另 一 个 原因 ,是 操作 系统 和 用 户 程序 对 于 同一 个 物理 地 址 
可 能 采用 两 种 以 上 不 同形 式 的 虚拟 地 址 来 访问 ,这 些 地 址 称 为 同 义 或 别名 。 它 们 可 能 会 导 
致 同 一 个 数据 在 虚拟 Cache 中 存在 两 个 副本 。 而 这 是 不 允许 的 ,和 否则 就 会 发 生 错误 。 

用 软件 的 办 法 来 解决 别名 问题 很 容易 ,只 要 要 求 别 名 的 某 些 地 址 位 相同 。 这 种 限制 被 
称 为 页 着 色 。 

3) 虚拟 索引 -物理 标识 方法 

这 种 方法 既 能 得 到 虚拟 Cache 的 好 处 ,又 能 得 到 物理 Cache 的 优点 。 它 直接 用 虚 地 址 
中 的 页 内 位 移 作为 访问 Cache 的 索引 ,但 标识 却 是 物理 地 址 。CPU 发 出 访 存 请 求 后 ,在 进 
行 虚 一 实地 址 转换 的 同时 ,可 并 行进 行 标识 的 读 取 。 在 完成 地 址 转换 之 后 ,再 把 得 到 的 物理 
地 址 与 标识 进行 比较 。 

这 种 方法 的 局 限 性 是 直接 映像 Cache 的 容量 不 能 超过 页 面 的 大 小 。 为 了 既 能 实现 大 容 
量 的 Cache, 又 能 使 索引 位 数 比 较 少 ,以 便 能 直接 从 虚拟 地 址 的 页 内 位 移 部 分 得 到 索引 ,可 
以 采用 提高 相 联 度 的 办 法 。 这 一 点 可 以 从 下 面 的 公式 中 看 出 (其 中 ,index 表示 索引 ) : 

Cache 的 容量 = 2aas X 相 联 度 X 块 大 小 
IBM 3033 的 Cache 采用 了 16 路 组 相 联 。 这 样 ,尽管 IBM 系统 结构 限制 了 页 的 大 小 为 
4KB, 但 16 路 组 相 联 却 使 得 可 以 用 虚拟 索引 对 64KB(16X4KB) 的 Cache 进行 寻 址 。 


3. Cache 访问 流水 化 


这 种 技术 把 对 第 一 级 Cache 的 访问 按 流水 方式 组 织 ,这 样 一 来 ,就 使 得 访问 Cache 需要 
多 个 时 钟 周 期 才 可 以 完成 。 例 如 , Intel 的 Pentium 访问 指令 Cache 需要 一 个 时 钟 周期 ， 
Pentium Pro 到 Pentium 也 需 要 两 个 时 钟 周期 ,而 Pentium 4 则 需要 4 个 时 钟 周期 。 这 样 处 
理 的 好 处 是 可 以 提高 时 钟 频率 。 实 际 上 它 并 不 能 真正 减少 Cache 的 命中 时 间 ,但 可 以 提高 
访问 Cache 的 带宽 。 
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4. 踪迹 Cache 


开发 指令 级 并 行 所 遇 到 的 一 个 挑战 是 : 当 要 每 个 时 钟 周期 流出 超过 4 条 指令 时 ,要 提 
供 足 够 多 条 彼此 互 不 相关 的 指令 是 很 困难 的 。 解 决 这 个 问题 的 一 个 方法 ,是 采用 踪迹 
Cache。 普 通 的 指令 Cache 都 是 存放 静态 指令 序列 的 ,与 之 不 同 ,踪迹 Cache 中 存放 的 是 
CPU 所 执行 过 的 动态 指令 序列 ,其 中 包含 由 分 支 预测 展开 了 的 指令 。 该 分 支 预测 是 否 正确 
需要 在 取 到 该 指令 时 进行 确认 。 

踪迹 Cache 的 地 址 映像 机 制 比 普 通 Cache 的 更 复杂 ,但 在 另 一 方面 , 它 能 够 提高 指令 
Cache 的 空间 利用 率 。 对 于 普通 Cache 中 的 一 个 块 来 说 ,如 果 通 过 分 支 成 功 转 到 该 块 的 某 
个 位 置 开始 执行 ,那么 该 块 中 处 于 该 位 置 之 前 的 部 分 就 可 能 根本 不 会 被 用 到 。 类 似 地 ,在 往 
后 面 执行 该 块 中 的 指令 时 ,也 可 能 因为 遇 到 成 功 的 分 支 而 从 该 块 中 转移 出 去 。 这 样 ,在 该 块 
中 位 于 该 分 支 指令 之 后 的 那些 指令 也 可 能 是 用 不 到 的 。 这 样 会 浪费 不 少 空 间 。 如 果 每 5 一 
10 条 指令 就 有 一 次 跳 转 或 成 功 分 支 ,那么 空间 的 浪费 确实 是 个 问题 。 踪 迹 Cache 中 则 只 存 
放 上 述 从 转 入 位置 到 转 出 位 置 之 间 的 指令 ,从 而 避免 了 上 述 空间 开销 。 

当然 ,踪迹 Cache 也 有 它 的 不 足 , 就 是 相同 的 指令 序列 有 可 能 被 当 作 条 件 分 支 的 不 同 选 
择 而 重复 存放 。 





7.2.6 并 行 主 存 系统 


并 行 主 存 系统 是 在 一 个 访 存 周期 内 能 并 行 访问 到 多 个 存储 字 的 存储 器 , 它 能 有 效 地 提 
高 存储 器 的 带宽 。 
假设 某 存 储 器 的 访问 周期 是 Tw, 字 长 为 W 位 , 则 其 带宽 为 : 
二 
Tw 
在 相同 的 器 件 条 件 下 (Tw 相同 ) ,如 果 要 提高 主 存 的 带宽 ,可 以 采用 以 下 两 种 并 行 存储 
器 结构 : 单 体 多 字 存 储 器 ,多 体 交 又 存储器。 


1. 单 体 多 字 存 储 器 
如 果 一 个 存储 器 能 够 每 个 存储 周期 读 出 m 个 字 , 则 其 最 大 带宽 提高 到 原来 的 mm 售 : 


1 
T™ 


单 体 多 字 并 行 存储 器 的 优点 是 实现 简单 ,缺点 是 访 存 效 率 不 高 ,其 原因 包括 以 下 4 个 
方面 。 

(1) 单 体 多 字 并 行 存储 器 一 次 能 读 取 m 个 指令 字 。 如 果 这 些 指 令 字 中 有 分 支 指令 ,而 
且 分 支 成 功 ,那么 该 分 支 指 令 之 后 的 指令 是 无 用 的 。 

(2) 单 体 多 字 并 行 存储 器 一 次 取出 的 m 个 数据 不 一 定 都 是 有 用 的 ,而 另 一 方面 ,当前 执 
行 指令 所 需要 的 多 个 操作 数 也 不 一 定 正好 都 存放 在 同一 个 长 存储 字 中 。 由 于 数据 存放 的 随 
机 性 比 程序 指令 存放 的 随机 性 大 ,所 以 发 生 这 种 情况 的 概率 较 大 。 

(3) 在 这 种 存储 器 中 ,必须 次 齐 了 疡 个 数 之 后 才能 一 起 写 和 存储器。 如 果 只 写 个 别 字 ， 


Bu 
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就 必须 先 把 相应 的 长 存储 字 读 出 来 , 放 到 数据 寄存 器 中 ,然后 在 地 址 码 的 控制 下 修改 其 中 的 
一 个 字 , 最 后 再 把 长 存储 字 写 回 存储 器 。 

(4) 当 要 读 出 的 数据 字 和 要 写 入 的 数据 字 处 于 同一 个 “长 存储 字 ” 内 时 , 读 和 写 的 操作 
就 无 法 在 同一 个 存储 周期 内 完成 。 


2. 多 体 交 叉 存储 器 


多 体 交叉 存储 器 由 多 个 单字 存储 体 构 成 。 每 个 体 都 有 自己 的 地 址 寄存 器 以 及 地 址 译 码 
和 读 / 写 驱动 等 电路 。 假 设 共 有 m 个 体 ,每 一 个 体 有 个 存储 单元 。 这 nnXm 个 单元 可 以 看 
成 是 一 个 由 存储 单元 构成 的 二 维和 矩阵 。 但 是 ,对 于 计算 机 使 用 者 来 说 ,存储 器 是 按 顺序 线性 
编 址 的 。 如 何在 二 维和 矩阵 和 线性 地 址 之 间 建 立 对 应 关系 ? 这 就 是 对 多 体 存 储 器 如 何 进行 编 
址 的 问题 。 

有 两 种 编 址 方法 : 高 位 交叉 编 址 ,低位 交叉 编 址 。 其 中 ,只 有 低位 交叉 编 址 存储 器 才能 
有 效 地 解决 访问 冲突 问题 。 

1) 高 位 交叉 编 址 

这 种 方式 相当 于 对 存储 单元 矩阵 按 列 优先 的 方式 进行 编 址 。 同 一 个 体 中 的 高 logzm 位 
都 是 相同 的 ,这 就 是 体 号 。 考 虑 处 于 第 i 行 第 j 列 的 单元 , 即 体 号 为 j、 体 内 地 址 为 i 的 单 
元 ,其 线性 地 址 可 按 下 式 求 得 : 


A=jXn 二 i (其 中 ,j = 0,1,2,…m 一 1; i = 二 0,1,2,…,n 一 1) 
反 过 来 ,如 果 已 经 知道 一 个 单元 的 线性 地 址 为 A, 则 其 体 号 j 和 体内 地 址 i 可 按 以 下 公 
式 求 得 : 
| 
和 | 
i=Amodn 


如 果 把 A 表示 为 二 进 制 数 , 则 其 高 logsm 位 就 是 体 号 ,而 剩 下 的 部 分 就 是 体内 地 址 。 

2) 低位 交叉 编 址 

这 种 方式 相当 于 对 存储 单元 矩阵 按 行 优先 进行 编 址 。 即 先 给 第 0 行 的 各 单元 按 从 左 到 
右 的 顺序 依次 赋予 地 址 ,然后 再 给 第 1 行 的 各 单元 按 顺 序 依次 赋予 地 址 ,…, 最 后 给 最 后 一 
行 的 各 单元 按 顺 序 依次 赋予 地 址 。 这 样 , 同 一 个 体 中 的 低 logsm 位 都 是 相同 的 ,这 就 是 
体 号 。 

考虑 处 于 第 i 行 第 j 列 的 单元 , 即 体 号 为 j、 体 内 地 址 为 i 的 单元 ,其 线性 地 址 可 按 下 式 
求 得 : 

A=iXm 十 i (其 中 ,i = 0,1,2,… sn 一 1; j= 二 0,1,2,…,m 一 1) 
反 过 来 ,如 果 已 经 知道 一 个 单元 的 线性 地 址 为 A, 则 其 体 号 ;} 和 体内 地 址 i 可 按 以 下 公 


式 求 得 : 
/| 入 


i=Amodm 
如 果 把 A 表示 为 二 进 制 数 , 则 其 低 logsm 位 就 是 体 号 ,而 剩 下 的 部 分 就 是 体内 地 址 。 
为 了 提高 主 存 的 带宽 ,需要 多 个 或 所 有 存储 体能 并 行 工 作 。 由 于 程序 执行 过 程 中 ， 
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CPU 所 访问 的 指令 和 数据 的 地 址 是 按 顺 序 连续 的 ,所 以 必须 采用 低位 交叉 访问 的 存储 器 ， 
并 在 每 一 个 存储 周期 内 ,分 时 启动 m 个 存储 体 。 

虽然 在 理想 情况 下 ,这 种 存储 器 的 带宽 最 高 能 提高 到 原来 的 m 倍 。 但 是 ,由 于 存在 访 
问 冲 突 , 实 际 加 速 比 小 于 mx。 单 纯 靠 增 大 m 来 提高 并 行 主 存 系统 的 带宽 是 有 限 的 ,而 且 性 
能 价格 比 还 会 随 m 的 增 大 而 下 降 。 


3. 避免 存储 体 冲 突 


在 许多 情况 下 ,都 要 求 存 储 系统 能 支持 多 个 独立 的 访 存 请 求 。 这 时 存储 器 系统 的 性 能 
将 取决 于 这 些 独立 的 访 存 请 求 发 生体 冲突 的 频 度 的 高 低 。 所 谓 体 冲突 ,是 指 两 个 访问 请 求 
要 访问 同一 个 存储 体 。 在 传统 的 多 体 交叉 结构 中 ,顺序 访问 被 处 理 得 很 好 ,不 会 发 生体 冲 
突 。 地 址 相差 奇数 值 的 访 存 也 是 如 此 。 问 题 是 当地 址 相差 偶数 值 时 ,冲突 的 频 度 就 增加 了 。 
解决 这 个 问题 的 一 种 方法 ,是 采用 很 多 个 体 去 减少 体 冲 突 的 次 数 。 这 种 方法 只 有 在 较 大 规 
模 的 机 器 中 才 采 用 。 

体 冲 突 问 题 既 可 以 用 软件 方法 也 可 以 用 硬件 方法 来 解决 。 编 译 器 可 以 通过 循环 交换 优 
化 来 避免 对 同一 个 体 的 访问 。 更 简单 的 一 种 方法 是 让 程序 员 或 编译 器 来 扩展 数组 的 大 小 ， 
使 之 不 是 2 的 宕 ,从 而 强制 使 所 访问 的 地 址 落 在 不 同 的 体内 。 

减少 体 冲突 的 一 种 硬件 解决 方案 是 使 体 数 为 素数 。 采 用 素数 看 起 来 似乎 会 需要 更 多 的 
硬件 来 完成 复杂 的 计算 ,会 延长 每 次 访 存 的 时 间 。 幸 运 的 是 ,有 几 种 硬件 方法 能 快速 地 进行 
上 述 计 算 。 尤 其 是 当 存 储 体 数 为 素数 、 且 为 2 的 客 减 1 时 ,可 以 用 下 面 的 计算 来 代替 除法 


运算 : 





体内 地 址 j = 二 A mod nn 
由 于 一 个 存储 体 中 包含 的 字数 n 一 般 是 2 的 办 ,所 以 可 以 用 位 选择 方法 来 实现 上 述 计 算 。 


7.2.7 虚拟 存储 器 


1. 基本 概念 


虚拟 存储 器 是 “ 主 存 - 辅 存 ”层次 进一步 发 展 的 结果 。 它 由 一 个 主 存储 器 和 一 个 容量 很 
大 的 辅助 存储 器 (通常 是 硬盘 ) 组 成 ,在 系统 软件 和 辅助 硬件 的 管理 下 ,就 像 一 个 单一 的 、 可 
直接 访问 的 大 容量 主 存 储 器 。 应 用 程序 员 可 以 用 机 器 指令 的 地 址 码 对 整个 程序 统一 编 址 ， 
就 如 同 应 用 程序 员 具 有 对 应 于 这 个 地 址 码 宽度 的 存储 空间 ( 称 为 程序 空间 ) 一 样 。 


2. 快速 地 址 转换 技术 


页 表 一 般 都 很 大 ,存放 在 主 存 中 。 这 样 ,每 次 访 存 都 要 引起 对 主 存 的 两 次 访问 : 第 一 次 
是 访问 页 表 , 以 获得 所 要 访问 数据 的 物理 地 址 ; 第 二 次 才 是 访问 数据 本 身 。 显 然 ,这 使 得 对 
存储 器 的 访问 速度 至 少 下 降 了 一 倍 , 是 无 法 实用 的 。 一 般 采 用 TLB 来 解决 这 个 问题 。 

TLB(Translation Look-aside Buffer) 是 一 个 专用 的 高 速 缓冲 器 ,用 于 存放 近期 经 常 使 
用 的 页 表 项 (Page Table Entry,PTE)。 大 多 数 访 存 都 可 以 通过 TLB 快速 地 完成 虚 一 实地 
址 转换 。 只 有 偶尔 在 TLB 不 命中 时 , 才 需 要 去 访问 主 存 中 的 页 表 。 
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TLB 中 的 项 与 Cache 中 的 项 类 似 , 也 是 由 两 部 分 构成 : 标识 和 数据 。 标 识 中 存放 的 是 
虚 地 址 的 一 部 分 ,而 数据 部 分 中 存放 的 则 是 物理 页 帧 号 .有效 位 、 存 储 保护 信息 、 使 用 位 、 修 
改 位 等 。 为 了 使 TLB 中 的 内 容 与 页 表 保 持 一 致 , 当 修 改 页 表 中 的 某 一 项 时 ,操作 系统 必须 
保证 TLB 中 没有 该 页 表 项 的 副本 。 这 可 以 通过 作废 TLB 中 的 页 表 项 来 实现 。 

地 址 转换 很 容易 处 在 确定 处 理 器 时 钟 周 期 的 关键 路 径 上 ,所 以 ,一 般 TLB 比 Cache 的 
标识 存储 器 更 小 ,而 且 更 快 ,这 样 才能 保证 TLB 的 读 出 操作 不 会 使 Cache 的 命中 时 间 延 长 。 


习 题 
1. 概念 题 
【 题 7.1】 解释 下 列 名 词 
多 级 存储 层次 命中 时 间 不 命中 率 不 命中 开销 
全 相 联 映像 直接 映像 组 相 联 映像 替换 算法 
LRU 写 直 达 法 写 回 法 按 写 分 配 法 
不 按 写 分 配 法 强制 性 不 命中 容量 不 命中 冲突 不 命中 
2 : 1Cache 经 验 规则 相 联 度 Victim Cache 故障 性 预 取 
非 故 障 性 预 取 非 阻塞 Cache 尽早 重启 动 请 求 字 优先 
多 级 包容 性 虚拟 Cache 并 行 主 存 系统 多 体 交 叉 存 储 器 
存储 体 冲突 TLB 
2. 选择 题 
【 题 7.2】 程序 员 编写 程序 时 ,使 用 的 访 存 地 址 是 ( Ya 
A. 主 存 地 址 B. 逻辑 地 址 C. 物理 地 址 D. 有 效 地 址 


【 题 7. 3】 虚拟 存储 器 主要 是 为 了 ( Ys 

A. 扩大 存储 系统 的 容量 

B. 提高 存储 系统 的 速度 

C. 扩大 存储 系统 的 容量 和 提高 存储 系统 的 速度 

D. 便于 程序 的 访 存 操作 

【 题 7.4】 与 全 相 联 映像 相 比 ,组 相 联 映像 的 优点 是 ( $i 

A. 目录 表 小 B. 块 冲突 概率 低 。 C. 命中 率 高 D. 主 存 利 用 率 高 

【 题 7.5】 按 Cache 地 址 映像 的 块 冲突 概率 从 高 到 低 的 顺序 是 ( ha 

A. 全 相 联 映像 .直接 映像 组 相 联 映像 

B. 组 相 联 映像 直接 映像 .全 相 联 映像 

C. 直接 映像 .组 相 联 映像 .全 相 联 映像 

D. 全 相 联 映像 .组 相 联 映像 直接 映像 

【 题 7.6】 对 于 采用 组 相 联 映像 .LRU 替换 算法 的 Cache 存储 器 来 说 ,不 影响 Cache 
命中 率 的 是 ( ys 
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A. 增加 Cache 中 的 块 数 B. 增 大 组 的 大 小 
C. 增 大 主 存 容量 D. 增 大 块 的 大 小 
【 题 7.7】 下 列 说 法 不 正确 的 是 ( 5 

A. 单 体 多 字 存 储 器 能 提高 存储 器 频 宽 

B. 多 体 存储 器 低位 交叉 编 址 能 提高 存储 器 频 宽 


多 体 存储 器 高 位 交叉 编 址 便于 扩大 存储 器 容量 
多 体 存储 器 高 位 交叉 编 址 能 提高 存储 器 频 宽 
填空 题 
【 题 7.8〗 存储 层次 的 性 能 参数 有 S 和 4 个 。 
【 题 7.9】 存储 器 层次 结构 设计 技术 的 基本 依据 是 程序 的 。 原理 , 它 包括 
和 两 方面 。 

【 题 7.10】“ 主 存 - 辅 存 " 层 次 的 目的 是 为 了 弥补 主 存 的 不 足 ;“Cache- 主 存 ” 
层次 的 目的 是 为 了 弥补 主 存 的 不 足 。 

【 题 7.11】 设 有 一 个 “Cache- 主 存 ” 层 次 ,Cache 为 8 块 , 主 存 为 16 块 ; 试 分 别 对 于 以 下 
两 种 情况 ,计算 访 存 块 地址 为 6 时 的 索引 (index) 。@ 组 相 联 , 每 组 两 块 ; 索引 为 


pn 


» 

















@ 直 接 映 像 ; 索引 为 
【 题 7.12】 存储 层次 要 解决 的 4 个 问题 是 和 
【 题 7.13〗 在 “Cache- 主 存 ”" 层 次 中 , CPU 的 访 存 地 下 被 分 员 为 和 
两 部 分 。 
【 题 7.14】 Cache 存储 器 采用 组 相 联 映像 是 指 组 间 映像 ,组 内 各 块 之 间 是 
映像 。 
【 题 7.15】 当 组 相 联 的 路 数 n 变 为 1 时 ,组 相 联 就 变 成 了 , 当 组 数 G 变 为 1 
时 ,组 相 联 就 变 成 了 


【 题 7.16】 在 Cache 存储 器 中 ,用 比较 对 法 实现 LRU 替换 算法 时 , 当 Cache 的 块 数 为 
8 时 ,需要 的 触发 器 个 数 为 
【 题 7.17】 用 堆栈 按 LRU 替换 算法 对 访 存 虚 页 地 址 流 处 理 完 后 ,从 栈 顶 到 栈 底 存放 








的 虚 页 号 是 各 虚 页 的 顺序 。 
【 题 7.18】 在 “Cache- 主 存 ” 层 次 中 , 主 存 的 更 新 算法 有 和 两 种 。 
【 题 7. 19】 在 “Cache- 主 存 ” 层 次 中 . 写 回 法 Cache 一 般 采 用 更 新 主 存 , 写 直达 
法 Cache 一 般 采 用 更 新 主 存 。 
【 题 7.20】 随机 法 中 选择 被 替换 的 块 。 先 进 先 出 法 中 选择 作为 被 
替换 的 块 。 最 近 最 少 使 用 法 中 选择 作为 被 替换 的 块 。 
【 题 7. 21】 按照 产生 不 命中 的 原因 不 同 ,可 以 把 不 命中 分 为 和 
3 类 。 
【 题 7. 22】 相 联 度 越 高 ， 就 越 少 ; 不 受 Cache 容量 的 影响 ,但 
却 随 着 容量 的 增加 而 减少 ; 和 不 受 相 联 度 的 影响 。 
【 题 7. 23】〗】 对 于 给 定 的 Cache 容量 , 当 块 大 小 增加 时 ,不 命中 率 开始 是 ,后 来 


反而 。Cache 容量 越 大 ,使 不 命中 率 达到 最 低 的 块 大 小 就 
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【 题 7. 24】 增加 块 大 小 的 方法 在 降低 不 命中 率 的 同时 会 增加 ,而 提高 相 联 度 
会 增加 

【是 7.25】 伪 相 联 既 能 获得 Cache 的 低 不 命中 率 , 又 能 保持 Cache 
的 命中 速度 。 


【 题 7. 26】 操作 系统 和 用 户 程序 对 于 同一 个 物理 地 址 可 能 采用 两 种 以 上 不 同形 式 的 
虚拟 地 址 来 访问 ,这 些 地 址 称 为 “或 





【 题 7. 27】 在 相同 的 器 件 条 件 下 ， 如 果 要 提高 主 存 的 带宽 ， 可 以 采用 和 
两 种 并 行 存储 器 结构 。 
【 题 7.28】 虚拟 存储 器 采用 映像 规则 ,替换 算法 采用 算法 , 写 策略 
采用 
4. 问答 题 


【 题 7.29】 单 级 存储 器 的 主要 矛盾 是 什么 ? 通常 采取 什么 方法 来 解决 ? 

【 题 7. 30〗 简 述 “Cache- 主 存 " 层 次 与 “ 主 存 - 辅 存 ”" 层 次 的 区 别 。 

【 题 7. 31】 地 址 映像 方法 有 哪 几 种 ? 它们 各 有 什么 优 缺 点 ? 

【 题 7. 32】 替换 算法 有 哪 几 种 ? 它们 各 有 什么 优 缺点 ? 

【 题 7.33〗 写 策 略 主要 有 哪 两 种 ? 它们 各 有 什么 优点 ? 

【 题 7.34】 夯 出 4 路 组 相 联 并 行 标识 比较 的 情况 。 

【 题 7.35】 简 述 伪 相 联 的 基本 思想 。 

【 题 7.36】 增加 块 大 小 导致 Cache 不 命中 率先 下 降 后 上 升 的 原因 是 什么 ? 

【 题 7.37】 降低 Cache 不 命中 率 有 哪 几 种 方法 ? 简 述 其 基本 思想 。 

【 题 7.38】 简 述 减 小 Cache 不 命中 开销 的 几 种 方法 。 

【 题 7. 39】 请 求 字 处 理 技术 有 哪 两 种 具体 的 实现 方法 ? 

【 题 7.40】 简 述 采用 二 级 Cache 的 基本 思想 。 

【 题 7.41】 通过 编译 器 对 程序 优化 来 改进 Cache 性 能 的 方法 有 哪 几 种 ? 简 述 其 基本 
思想 。 

【 题 7.42】 组 相 联 Cache 的 不 命中 率 比 相同 容量 直接 映像 Cache 的 不 命中 率 低 。 由 
此 能 否 得 出 结论 : 采用 组 相 联 一 定 能 带 来 性 能 上 的 提高 ?为 什么 ? 

【 题 7.43】 写 出 三 级 Cache 的 平均 访问 时 间 的 公式 。 

【 题 7.44】 简 述 采用 容量 小 且 结 构 简单 的 Cache 所 带 来 的 好 处 。 

【 题 7.45】 简 述 “虚拟 索引 十 物理 标识 ”Cache 的 基本 思想 。 它 有 什么 优 缺 点 ? 

【 题 7. 46〗 在 设计 Cache 时 并 非 都 采用 虚拟 Cache, 为 什么 ? 

【 题 7. 47〗 单 体 多 字 并 行 存储 器 的 访 存 效 率 不 高 ,其 原因 是 什么 ? 


5. 应 用 题 


【 题 7. 48〗 VAX-11/780 在 Cache 命中 时 的 指令 平均 执行 时 间 是 9. 5 时 钟 周期 ,Cache 
不 命中 时 间 是 5 个 时 钟 周期 。 假 设 不 命中 率 是 12%% ,每 条 指令 平均 访 存 2. 5 次 。 试 计算 考 
虑 了 Cache 不 命中 时 的 指令 平均 执行 时 间 。 它 比 Cache 命中 时 的 指令 平均 执行 时 间 延 长 了 
百 分 之 几 ? 


164 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





【 题 7.49】 我 们 考虑 某 一 个 机 器 。 假 设 Cache 读 不 命中 开销 为 25 个 时 钟 周期 , 写 不 
命中 开销 为 70 个 时 钟 周期 , 当 不 考虑 存储 器 停顿 时 ,所 有 指令 的 执行 时 间 都 是 2. 0 个 时 钟 
周期 , Cache 的 读 不 命中 率 和 写 不 命中 率 均 为 4% ,平均 每 条 指令 读 存 储 器 0. 8 次 , 写 存储 器 
0.5 次 。 试 分 析 考 虑 Cache 的 不 命中 后 ,Cache 对 性 能 的 影响 。 

【 题 7. 50】 假设 对 指令 Cache 的 访问 占 全 部 访问 的 75%; 而 对 数据 Cache 的 访问 占 
全 部 访问 的 25%。Cache 的 命中 时 间 为 1 个 时 钟 周期 ,不 命中 开销 为 50 个 时 钟 周期 ,在 统 
一 Cache 中 一 次 load 或 store 操作 访问 Cache 的 命中 时 间 都 要 增加 一 个 时 钟 周期 ,32KB 的 
指令 Cache 的 不 命中 率 为 0.39% ,32KB 的 数据 Cache 的 不 命中 率 为 4. 82% ,64KB 的 统一 
Cache 的 不 命中 率 为 1.35%。 又 假设 采用 写 直 达 策 略 , 且 有 一 个 写 缓冲 器 ,并 且 和 忽略 写 缓冲 
器 引起 的 等 待 。 试 问 指令 Cache 和 数据 Cache 容量 均 为 32KB 的 分 离 Cache 和 容量 为 
64KB 的 统一 Cache 相 比 , 哪 种 Cache 的 不 命中 率 更 低 ? 两 种 情况 下 平均 访 存 时 间 各 是 
多 少 ? 

【 题 7. 51】 假定 存储 系统 在 延迟 30 个 时 钟 周期 后 ,每 两 个 时 钟 周 期 能 送出 16 个 字 
节 。 即 : 经 过 32 个 时 钟 周 期 , 它 可 提供 16 个 字 节 ; 经 过 34 个 时 钟 周期 ,可 提供 32 个 字 节 ， 
以 此 类 推 。 命 中 时 间 与 块 大 小 无 关 ,为 1 个 时 钟 周期 ,分 别 计算 下 列 各 种 容量 的 Cache 的 平 
均 访 存 时 间 。@ 块 大 小 为 32 个 字 节 ,Cache 容量 为 1KB, 不 命中 率 为 13.34%; @ 块 大 小 为 
32 个 字 节 ,Cache 容量 为 4KB, 不 命中 率 为 7. 24%; @ 块 大 小 为 64 个 字 节 ,Cache 容量 为 
16KB, 不 命中 率 为 2. 64%; @ 块 大 小 为 128 个 字 节 ,Cache 容量 为 16KB, 不 命中 率 为 
2.77%。 

【 题 7.52〗 Alpha AXP 21064 中 ,16KB 指令 Cache 的 不 命中 率 为 0. 64 %, 命 中 时 间 
为 1 个 时 钟 周期 ,不 命中 开销 为 60 个 时 钟 周期 。 假 设 采 用 指令 预 取 技 术 后 , 预 取 命 中 率 为 
30 %。 当 指令 不 在 指令 Cache 里 ,而 在 预 取 缓冲 器 中 找到 时 ,需要 多 花 一 个 时 钟 周期 。 其 
实际 不 命中 率 是 多 少 ? 

【 题 7.53】 假设 在 3000 次 访 存 中 ,第 一 级 Cache 不 命中 110 次 ,第 二 级 Cache 不 命中 
55 次 。 试 问 : 在 这 种 情况 下 ,该 Cache 系统 的 局 部 不 命中 率 和 全 局 不 命中 率 各 是 多 少 ? 

【 题 7.54】 在 三 级 Cache 中 ,第 一 级 Cache、 第 二 级 Cache 和 第 三 级 Cache 的 局 部 不 命 
中 率 分 别 为 4%、30% 和 50%。 它 们 的 全 局 不 命中 率 各 是 多 少 ? 

【 题 7.55】 给 定 以 下 的 假设 , 试 计算 直接 映像 Cache 和 两 路 组 相 联 Cache 的 平均 访问 
时 间 以 及 CPU 的 性 能 。 由 计算 结果 能 得 出 什么 结论 ? 

(1) 理想 Cache 情况 下 的 CPI 为 2. 0, 时 钟 周期 为 2ns, 平 均 每 条 指令 访 存 1.2 次 ; 

(2) 两 者 Cache 容量 均 为 64KB, 块 大 小 都 是 32B; 

(3) 组 相 联 Cache 中 的 多 路 选择 器 使 CPU 的 时 钟 周期 增加 了 10%; 

(4) 这 两 种 Cache 的 不 命中 开销 都 是 80ns; 

(5) 命中 时 间 为 1 个 时 钟 周期 ; 

(6) 64KB 直接 映像 Cache 的 不 命中 率 为 1.4% ,64KB 两 路 组 相 联 Cache 的 不 命中 率 
汰 0% 

【 题 7.56】 假设 一 台 计算 机 具有 以 下 特性 : 

(1) 95% 的 访 存在 Cache 中 命中 ; 

(2) 块 大 小 为 两 个 字 , 且 不 命中 时 整个 块 被 调 入 ; 
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(3) CPU 发 出 访 存 请 求 的 速率 为 10' 字 / 秒 ; 

(4) 25% 的 访 存 为 写 访问 ; 

(5) 存储 器 的 最 大 流量 为 10" 字 / 秒 ( 包 括 读 和 写 ); 

(6) 主 存 每 次 只 能 读 或 写 一 个 字 ; 

(7) 在 任何 时 候 ,Cache 中 有 30% 的 块 被 修改 过 ; 

(8) 写 不 命中 时 ,Cache 采用 按 写 分 配 法 。 

现 欲 给 该 计算 机 增添 一 台 外 设 ,为 此 首先 想 知道 主 存 的 频带 已 用 了 多 少 。 试 对 于 以 下 
两 种 情况 计算 主 存 频 带 的 平均 使 用 比例 。 

(1) 写 直 达 Cache; 

(2) 写 回 法 Cache。 

【 题 7.57】 在 伪 相 联 中 ,假设 在 直接 映像 位 置 没 有 发 现 匹 配 ,而 在 另 一 个 位 置 才 找到 
数据 ( 伪 命 中 ) 时 ,不 对 这 两 个 位 置 的 数据 进行 交换 。 这 时 只 需要 1 个 额外 的 周期 。 假 设 不 
命中 开销 为 50 个 时 钟 周期 ,2KB 直接 映像 Cache 的 不 命中 率 为 9.8% ,2KB 2 路 组 相 联 的 
不 命中 率 为 7. 6%; 128KB 直接 映像 Cache 的 不 命中 率 为 1.0% ,128KB 2 路 组 相 联 的 不 命 
中 率 为 0.7%。 

(1) 推导 出 平均 访 存 时 间 的 公式 。 

(2) 利用 (1) 中 得 到 的 公式 ,对 于 2KB Cache 和 128KB Cache, 计 算 伪 相 联 的 平均 访 存 
时 间 。 

【 题 7.58〗 假设 采用 理想 存储 器 系统 时 的 基本 CPI 是 1. 5, 主 存 延 迟 是 40 个 时 钟 周 
期 ; 传输 速率 为 4 字 节 /时 钟 周期 , 且 Cache 中 50% 的 块 是 修改 过 的 。 每 个 块 中 有 32 字 节 ， 
20% 的 指令 是 数据 传送 指令 。 并 假设 没有 写 缓存 ,在 TLB 不 命中 的 情况 下 需要 20 时 钟 周 
期 ,TLB 不 会 降低 Cache 命中 率 。CPU 产生 指令 地 址 或 Cache 不 命中 时 产生 的 地 址 有 
0.2% 没 有 在 TLB 中 找到 。 

(1) 在 理想 TLB 情况 下 ,计算 均 采 用 写 回 法 16KB 直接 映像 统一 Cache、16KB 两 路 组 
相 联 统一 Cache 和 32KB 直接 映像 统一 Cache 机 器 的 实际 CPI; 

(2) 在 实际 TLB 情况 下 ,用 (1) 的 结果 ,计算 均 采用 写 回 法 16KB 直接 映像 统一 Cache、 
16KB 两 路 组 相 联 统一 Cache 和 32KB 直接 映像 统一 Cache 机 器 的 实际 CPI。 

其 中 ,假设 16KB 直接 映像 统一 Cache、6KB 两 路 组 相 联 统一 Cache 和 32KB 直接 映像 
统一 Cache 的 不 命中 率 分 别 为 2.9%、2.2% 和 2.0%; 25% 的 访 存 为 写 访问 。 

【 题 7. 59】 某 个 程序 共 访 问 存储 器 1 000 000 次 ,该 程序 在 某 个 系统 中 运行 ,系统 中 
Cache 的 不 命中 率 为 7%, 其 中 ,强制 性 不 命中 和 容量 不 命中 各 占 25% ,冲突 不 命中 占 
50% 。 问 : 

(1) 当 人 允许 对 该 Cache 所 做 的 唯一 改变 是 提高 相 联 度 时 ,此 时 期 望 能 够 消除 的 最 大 不 
命中 次 数 是 多 少 ? 

(2) 当 人 允许 同时 提高 Cache 的 容量 大 小 和 相 联 度 时 ,此 时 期 望 能 够 消除 的 最 大 不 命中 
次 数 是 多 少 ? 

【 题 7.60】 设 主 存 每 个 分 体 的 存储 周期 为 2ws, 存 储 字 长 为 4B, 采 用 m 个 分 体 低位 交 
叉 编 址 。 由 于 各 种 原因 , 主 存 实际 带宽 只 能 达到 最 大 带宽 的 0. 6 倍 , 现 要 求 主 存 实际 带宽 为 
4MB/s, 问 主 存 分 体 数 应 取 多 少 ? 
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【是 7.61】 设 主 存 由 8 个 存储 体 按 低 位 交叉 编 址 方式 组 成 , 主 存 容量 1M 字 ,Cache 容 
量 为 4K 字 ,要 求 一 个 主 存 周期 从 主 存 取得 一 个 块 。 采 用 全 相 联 地 址 映像 ,用 相 联 目录 表 实 
现 地 址 变换 。 求 出 相 联 目录 表 的 行 数 、 比 较 位 数 、 宽 度 和 总 位 数 。 

【是 7.62】 程序 存放 在 模 32 单字 交叉 存储 器 中 , 设 访 存 申请 队列 的 转移 概率 4 为 
25% , 求 每 个 存储 周期 能 访问 到 的 平均 字数 。 当 模 数 为 16 时 呢 ? 由 此 可 得 出 什么 结论 ? 


题 解 


1. 概念 题 


【 题 7.1】 解释 下 列 名 词 

多 级 存储 层次 一 一 采用 不 同 技术 实现 的 存储 器 构成 的 一 个 存储 系统 。 处 在 离 CPU 不 
同 距离 的 层次 上 ,各 存储 器 之 间 一 般 满足 包容 关系 , 即 任 何 一 层 存 储 器 中 的 内 容 都 是 其 下 一 
层 ( 离 CPU 更 远 的 一 层 ) 存 储 器 中 内 容 的 子 集 。 目 标 是 达到 离 CPU 最 近 的 存储 器 的 速度 ， 
最 远 的 存储 器 的 容量 。 

命中 时 间 一 一 访问 Cache 命中 时 所 用 的 时 间 。 

不 命中 率 一 一 CPU 访 存 时 ,在 一 级 存储 器 中 找 不 到 所 需 信息 的 概率 。 

不 命中 开销 一 一 CPU 向 二 级 存储 器 发 出 访问 请 求 到 把 这 个 数据 调和 一 级 存储 器 所 需 
的 时 间 。 

全 相 联 映像 一 一 主 存 中 的 任 一 块 可 以 被 放置 到 Cache 中 任意 一 个 地 方 。 

直接 映像 一 一 主 存 中 的 每 一 块 只 能 被 放置 到 Cache 中 唯一 的 一 个 地 方 。 

组 相 联 映像 一 一 将 Cache 分 成 若干 个 组 ,每 组 由 若干 块 构成 。 主 存 中 的 每 一 块 可 以 放 
置 到 Cache 中 唯一 的 一 组 中 任何 一 个 地 方 。 

替换 算法 一 一 由 于 主 存 中 的 块 比 Cache 中 的 块 多 ,所 以 当 要 从 主 存 中 调 一 个 块 到 
Cache 中 时 ,会 出 现 该 块 所 映像 到 的 一 组 (或 一 个 )Cache 块 已 全 部 被 占用 的 情况 。 这 时 , 需 
被 迫 腾 出 其 中 的 某 一 块 ,以 接纳 新 调和 的 块 。 

LRU 一 一 选择 最 近 最 少 被 访问 的 块 作 为 被 替换 的 块 。 实 际 实现 都 是 选择 最 久 没 有 被 
访问 的 块 作为 被 替换 的 块 。 

写 直 达 法 一 一 在 执行 写 操作 时 ,不 仅 把 信息 写 入 Cache 中 相应 的 块 , 而 且 也 写 入 下 一 级 
存储 器 中 相应 的 块 。 

写 回 法 一 一 只 把 信息 写 人 Cache 中 相应 块 ,该 块 只 有 在 被 替换 时 , 才 被 写 回 主 存 。 

按 写 分 配 法 一 一 写 不 命中 时 , 先 把 所 写 单 元 所 在 的 块 调 入 Cache, 然 后 再 进行 写 和 人 。 

不 按 写 分 配 法 一 一 写 不 命中 时 .直接 写 入 下 一 级 存储 器 中 ,而 不 把 相应 的 块 调 入 
Cache。 

强制 性 不 命中 一 一 当 第 一 次 访问 一 个 块 时 ,该 块 不 在 Cache 中 ,需要 从 下 一 级 存储 器 中 
调和 人 Cache, 这 就 是 强制 性 不 命中 。 

容量 不 命中 一 一 如 果 程 序 在 执行 时 ,所 需要 的 块 不 能 全 部 调和 人 Cache 中 , 则 当 某 些 块 被 
替换 后 又 重新 被 访问 ,就 会 产生 不 命中 ,这 种 不 命中 就 称 作 容 量 不 命中 。 
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冲突 不 命中 一 一 在 组 相 联 或 直接 映像 Cache 中 , 若 太 多 的 块 映像 到 同一 组 ( 块 ) 中 , 则 会 
出 现 该 组 中 某 个 块 被 别 的 块 蔡 换 ( 即 使 别 的 组 或 块 有 空闲 位 置 ) ,然后 又 被 重新 访问 的 情况 。 

2 : 1Cache 经 验 规 则 一 一 大 小 为 N 的 直接 映像 Cache 的 不 命中 率 约 等 于 大 小 为 NM2 
的 两 路 组 相 联 Cache 的 不 命中 率 。 

相 联 度 一 一 在 组 相 联 中 ,每 组 所 包含 的 块 数 。 

Victim Cache 一 一 位 于 Cache 和 存储 器 之 间 的 又 一 级 Cache, 容 量 小 ,采用 全 相 联 策略 。 
用 于 存放 由 于 不 命中 而 被 丢弃 (替换 ) 的 那些 块 。 每 当 不 命中 发 生 时 ,在 访问 下 一 级 存储 器 
之 前 , 先 检查 Victim Cache 中 是 否 含有 所 需 块 。 

故障 性 预 取 一 一 在 预 取 时 , 若 出 现 虚 地 址 故障 或 违反 保护 权限 ,就 会 发 生 异 常 。 

非 故 障 性 预 取 一 一 在 预 取 时 , 若 出 现 虚 地 址 故障 或 违反 保护 权限 ,不 发 生 异 常 。 

非 阻塞 Cache 一 一 Cache 在 等 待 预 取 数据 返回 时 ,还 能 继续 提供 指令 和 数据 。 

尽早 重启 动 一 一 在 请 求 字 没 有 到 达 时 ,CPU 处 于 等 待 状态 。 一 旦 请 求 字 到 达 , 就 立即 
发 送 给 CPU ,让 等 待 的 CPU 尽早 重启 动 ,继续 执行 。 

请 求 字 优先 一 一 调 块 时 ,首先 向 存储 器 请 求 CPU 所 要 的 请 求 字 。 请 求 字 一 旦 到 达 , 就 
立即 送 往 CPU ,让 CPU 继续 执行 ,同时 从 存储 器 调和 人 该 块 的 其 余部 分 。 

多 级 包容 性 一 一 一 级 存储 器 (Cache) 中 的 数据 总 位 于 下 一 级 存储 器 中 。 

虚拟 Cache 一 一 地 址 使 用 虚 地 址 的 Cache。 

并 行 主 存 系 统一 一 在 一 个 访 存 周 期 内 能 并 行 访问 到 多 个 存储 字 的 存储 器 , 它 能 有 效 地 
提高 存储 器 的 带宽 。 

多 体 交 又 存储 器 一 一 具有 多 个 存储 体 , 各 体 之 间 按 字 交 叉 的 存储 器 。 

存储 体 冲突 一 一 多 个 请 求 要 访问 同一 个 体 。 

TLB 一 一 一 个 专用 高 速 存储 器 ,用 于 存放 近期 经 常 使 用 的 页 表 项 ,其 内 容 是 页 表 部 分 内 
容 的 一 个 副本 。 


2. 选择 题 

【 题 7.2】 答 : B 

【 题 7.3】 答 : A 

【 题 7.4】 答 : A 

【 题 7.5】 答 :C 

【 题 7.6】 答 :C 

【 题 7.7〗 答 : D 

3. 填空 题 

【 题 7.8〗 答 : 存储 容量 ,平均 每 位 价格 、 命 中 率 、 平 均 访 问 时 间 
【 题 7.9】 答 : 局 部 性 .空间 局 部 性 .时 间 局 部 性 

【 题 7.10】 答 : 容量 .速度 

【 题 7.11〗 答 : 01.0 

【 题 7.12】 答 : 映像 规则 .查找 方法 、 蔡 换算 法、 写 策略 
【 题 7.13〗 答 : 块 地 址 、 块 内 位 移 
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【 题 7.14】 答 
【 题 7.15】 答 
【 题 7.16】 答 
【 题 7.17】 答 
【 题 7.18】 答 
【 题 7.19】 答 
【 题 7.20】〗 答 
【 题 7.21】〗】 答 
【 题 7.22】〗 答 
【 题 7.23】 答 
【 题 7.24】 答 
【 题 7.25】 答 
【 题 7.26】 答 
【 题 7.27】〗 答 
【 题 7.28〗 答 
4. 问答 题 

【 题 7.29】 答 


: 直接 .全 相 联 

: 直接 映像 .全 相 联 

: 28 

: 按时 间 从 最 近 到 过 去 最 久 被 访问 

: 按 写 分 配 法 、 不 按 写 分 配 法 

: 按 写 分 配 法 、 不 按 写 分 配 法 

: 随机 地 、 最 早 调和 的 块 . 近 期 最 少 被 访问 的 块 
: 强制 性 不 命中 容量 不 命中 、 冲 突 不 命中 

: 冲突 不 命中 、 强 制 性 不 命中 ,容量 不 命中 ,强制 性 不 命中 、 容 量 不 命中 
: 下 降 、 上 升 . 越 大 

: 不 命中 开销 、 命 中 时 间 

: 多 路 组 相 联 、 直 接 映 像 

: 同 义 、 别 名 

: 单 体 多 字 存 储 器 .多 体 交 叉 存储 器 

: 全 相 联 、 最 近 最 少 使 用 LRU、 写 回 策 略 


: 中 速度 越 快 ,每 位 价格 就 越 高 ; @ 容 量 越 大 ,每 位 价格 就 越 低 ; 加 容量 


越 大 ,速度 越 慢 。 采 取 多 级 存储 层次 方法 来 解决 。 


























【 题 7.30】〗 答 :“Cache- 主 存 ” 层 次 与 “ 主 存 - 辅 存 ”层次 的 区 别 见 表 7. 2。 
表 7.2 “Cache- 主 存 " 层 次 与 “ 主 存 - 辅 存 "层次 的 区 别 
存储 层次 

训 训 下 Cache- 主 存 ” 层 次 主 存 - 辅 存 "层次 
目的 为 了 弥补 主 存 速度 的 不 足 为 了 弥补 主 存 容量 的 不 足 
存储 管理 的 实现 全 部 由 专用 硬件 实现 主要 由 软件 实现 
访问 速度 的 比值 
(第 一 级 比 第 二 级 ) 人 人 
典型 的 块 (页 ) 大 小 几 十 个 字 节 几 百 到 几 千 个 字 节 
CPU 对 第 二 级 的 访问 方式 可 直接 访问 均 通过 第 一 级 
不 命中 时 CPU 是 否 切 换 不 切换 切换 到 其 他 进程 

【 题 7.31】 答 : 全 相 联 映像 。 实 现 查 找 的 机 制 复杂 ,代价 高 ,速度 慢 。Cache 空间 的 


利用 率 较 高 , 块 冲突 概率 较 低 ,因而 Cache 的 不 命中 率 也 低 。@@ 直 接 映像 。 实 现 查 找 的 机 制 
简单 ,速度 快 。Cache 空间 的 利用 率 较 低 , 块 冲突 概率 较 高 ,因而 Cache 的 不 命中 率 也 高 。 


@ 组 相 联 映像 。 组 相 联 是 直接 映像 和 全 相 联 的 一 种 折 中 。 
答 : 四 随机 法 。 简 单 .易于 用 硬件 实现 ,但 这 种 方法 没有 考虑 Cache 块 过 去 


【 题 7. 32】 


被 使 用 的 情况 ,反映 不 了 程序 的 局 部 性 ,所 以 其 不 命中 率 比 LRU 的 高 。 加 先进 先 出 法 。 容 
易 实现 。 它 虽然 利用 了 同一 组 中 各 块 进 入 Cache 的 顺序 这 一 “历史 ?信息 ,但 还 是 不 能 正确 
地 反映 程序 的 局 部 性 。 名 最 近 最 少 使 用 法 LRU 。 不 命中 率 最 低 。 但 是 LRU 比较 复杂 , 硬 
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件 实现 比较 困难 。 

【 题 7.33】 答 : 中 写 直 达 法 。 易 于 实现 ,而 且 下 一 级 存储 器 中 的 数据 总 是 最 新 的 。 
回 写 回 法 。 速 度 快 , 写 "操作 能 以 Cache 存储 器 的 速度 进行 。 而 且 对 于 同一 单元 的 多 个 写 
最 后 只 需 一 次 写 回 下 一 级 存储 器 ,有 些 “ 写 ”只 到 达 Cache, 不 到 达 主 存 , 因 而 所 使 用 的 存储 







































































器 频带 较 低 。 
【 题 7.34】 答 : 4 路 组 相 联 并 行 标识 比较 的 情况 如 图 7.4 所 示 。 
有 位 g 位 
一 一 全 一 
主 存 块 地 址 | 。 标识 。 | ”索引 
从 28 行 中 选择 一 行 
第 ! 组 第 2 组 第 3 组 第 4 组 
位 位 位 有 位 
一 | 
标识 存储 器 
否 是 否 是 否 是 否 是 
=? =? =? =? 
位 比较 器 人 1 1 i 




















7.4 4 路 组 相 联 并 行 标识 比较 的 情况 


【 题 7.35】 答 : 采用 这 种 方法 时 ,在 命中 情况 下 ,访问 Cache 的 过 程 和 直接 映像 Cache 
中 的 情况 相同 ; 而 发 生 不 命中 时 ,在 访问 下 一 级 存储 器 之 前 ,会 先 检查 Cache 另 一 个 位 置 
( 块 ) ,看 是 否 匹配 。 确 定 这 个 另 一 块 的 一 种 简单 的 方法 是 将 索引 字段 的 最 高 位 取 反 ,然后 按 
照 新 索引 去 寻找 伪 相 联 组 中 的 对 应 块 。 如 果 这 一 块 的 标识 匹配 , 则 称 发 生 了 伪 命 中 。 和 否则， 
就 只 好 访问 下 一 级 存储 器 。 

【 题 7.36】 答 : (1) 一 方面 它 减少 了 强制 性 不 命中 ,因为 局 部 性 原理 有 两 方面 的 含义 : 
时 间 局 部 性 和 空间 局 部 性 ,增加 块 大 小 利用 了 时 间 局 部 性 。 

(2) 另 一 方面 ,由 于 增加 块 大 小 会 减少 Cache 中 块 的 数目 ,所 以 有 可 能 会 增加 冲突 不 命 
中 。 在 Cache 容量 较 小 时 ,甚至 还 会 增加 容量 不 命中 。 刚 开始 增加 块 大 小 时 ,由 于 块 大 小 还 
不 是 很 大 ,上 述 的 第 一 种 作用 超过 第 二 种 作用 ,从 而 使 不 命中 率 下 降 。 但 等 到 块 大 小 较 大 
时 ,第 二 种 作用 超过 第 一 种 作用 ,使 不 命中 率 上 升 。 

【 题 7.37】 答 : 常用 的 降低 Cache 不 命中 率 的 方法 有 下 面 几 种 。 

(1) 增加 Cache 块 大 小 。 增 加 块 大 小 利用 了 程序 的 空间 局 部 性 。 

(2) 增加 Cache 的 容量 。 

(3) 提高 相 联 度 , 降 低 冲 突 不 命中 。 

(4) 伪 相 联 Cache, 降 低 冲 突 不 命中 。 当 对 伪 相 联 Cache 进行 访问 时 ,首先 是 按 与 直接 
映像 相同 的 方式 进行 访问 。 如 果 命 中 , 则 从 相应 的 块 中 取出 所 访问 的 数据 , 送 给 CPU ,访问 
结束 。 如 果 不 命中 ,就 将 索引 字段 的 最 高 位 取 反 ,然后 按照 新 索引 去 寻找 “ 伪 相 联 组 ”中 的 对 
应 块 。 如 果 这 一 块 的 标识 匹配 , 则 称 发 生 了 “ 伪 命 中 ”。 否 则 ,就 访问 下 一 级 存储 器 。 

(5) 硬件 预 取 技术 。 指 令 和 数据 都 可 以 在 处 理 器 提出 访问 请 求 前 进行 预 取 。 
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(6) 由 编译 器 控制 的 预 取 。 硬 件 预 取 的 蔡 代 方 法 ,在 编译 时 加 入 预 取 的 指令 ,在 数据 被 
用 到 之 前 发 出 预 取 请 求 。 

(7) 编译 器 优化 。 通 过 对 软件 的 优化 来 降低 不 命中 率 。 

(8)“ 牺 牲 ”"Cache。 在 Cache 和 其 下 一 级 存储 器 的 数据 通路 之 间 增 设 一 个 全 相 联 的 小 
Cache, 存 放 因 冲突 而 被 替换 出 去 的 那些 块 。 每 当 发 生 不 命中 时 ,在 访问 下 一 级 存储 器 之 
前 , 先 检查 “牺牲 "Cache 中 是 否 含有 所 需 的 块 。 如 果 有 ,就 将 该 块 与 Cache 中 某 个 块 做 交 
换 , 把 所 需 的 块 从 “牺牲 "Cache 调和 Cache。 

【 题 7.38〗 答 : (1) 让 读 不 命中 优先 于 写 。 

(2) 写 缓冲 合并 。 

(3) 请 求 字 处 理 技术 。 

(4) 非 阻 塞 Cache 或 非 锁 定 Cache 技术 。 

(5) 采用 二 级 Cache。 

【 题 7.39】 答 : (1) 尽早 重启 动 : 在 请 求 字 没有 到 达 时 ,CPU 处 于 等 待 状态 。 一 旦 请 
求 字 到 达 ,就 立即 发 送 给 CPU ,让 等 待 的 CPU 尽早 重启 动 ,继续 执行 。 

(2) 请 求 字 优先 : 调 块 时 ,首先 向 存储 器 请 求 CPU 所 要 的 请 求 字 。 请 求 字 一 旦 到 达 ， 
就 立刻 送 往 CPU ,让 CPU 继续 执行 ,同时 从 存储 器 调 人 该 块 的 其 余部 分 。 请 求 字 优先 也 称 
为 回 绕 读 取 或 关键 字 优 先 。 

【 题 7.40】 答 : 通过 在 原 有 Cache 和 存储 器 之 间 增 加 另 一 级 Cache, 构 成 两 级 Cache， 
我 们 可 以 把 第 一 级 Cache 做 得 足够 小 ,使 其 速度 和 快速 CPU 的 时 钟 周期 相 匹配 ,而 把 第 二 
级 Cache 做 得 足够 大 ,使 它 能 捕获 更 多 本 来 需要 到 主 存 去 的 访问 ,从 而 降低 实际 不 命中 
开销 。 

【 题 7.41】 答 : @ 数 组 合并 。 通 过 提高 空间 局 部 性 来 减少 不 命中 次 数 。 有 些 程序 同时 
用 相同 的 索引 来 访问 若干 个 数组 的 同一 维 ,这些 访问 可 能 会 相互 干扰 ,导致 冲突 不 命中 ,可 
以 将 这 些 相互 独立 的 数组 合并 成 一 个 复合 数组 ,使 得 一 个 Cache 块 中 能 包含 全 部 所 需 元 素 。 
名 内 外 循环 交换 。 循 环 嵌 套 时 ,程序 没有 按 数据 在 存储 器 中 的 顺序 访问 。 只 要 简单 地 交换 
内 外 循环 ,就 能 使 程序 按 数据 在 存储 器 中 的 存储 顺序 进行 访问 。@@ 循 环 融合 。 有 些 程序 含 
有 几 部 分 独立 的 程序 段 ,它们 用 相同 的 循环 访问 同样 的 数组 ,对 相同 的 数据 做 不 同 的 运算 。 
通过 将 它们 融合 成 一 个 单一 循环 ,能 使 读 和 人 Cache 的 数据 被 替换 出 去 之 前 得 到 反复 的 使 用 。 
@ 分 块 。 通 过 改进 时 间 局 部 性 来 减少 不 命中 。 分 块 不 是 对 数组 的 整 行 或 整 列 进行 访问 ,而 
是 对 子 和 矩阵 或 块 进 行 操 作 。 

【 题 7.42】 答 : 不 一 定 。 因 为 组 相 联 命中 率 的 提高 是 以 增加 命中 时 间 为 代价 的 ,组 相 
联 需要 增加 多 路 选择 开关 。 

【 题 7.43】 答 : 平均 访 存 时 间 一 命中 时 间 十 不 命中 率 义 不 命中 开销 

只 有 第 工 层 的 不 命中 时 才 会 访问 第 TI 十 1 层 。 

设 三 级 Cache 的 命中 率 分 别 为 Hi 、His、Hus :不 命中 率 分 别 为 Ma 、Mis .Mi ,第 三 级 
Cache 的 不 命中 开销 为 Ps 。 

平均 访问 时 间 TA = Hu 十 Mu{His 十 Mizs(His 二 Mis X Ps)} 

【 题 7.44】 答 : 可 以 有 效 地 提高 Cache 的 访问 速度 。 因 为 硬件 越 简单 ,速度 就 越 快 。 

小 容量 Cache 可 以 实现 快速 标识 检测 ,对 减少 命中 时 间 有 益 。@Cache 足够 小 ,可 以 与 处 理 
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器 做 在 同一 芯片 上 ,以 避免 因 芯片 外 访问 而 增加 时 间 开 销 。@ 保 持 Cache 结构 简单 可 采用 
直接 映像 Cache。 直 接 映像 Cache 的 主要 优点 是 可 以 让 标识 检测 和 数据 传送 重 释 进行 ,这 
样 可 以 有 效 地 减少 命中 时 间 。 

【 题 7.45】〗 答 : 直接 用 虚 地 址 中 的 页 内 位 移 (页 内 位 移 在 虚 习 实地 址 的 变换 中 保持 不 
变 ) 作 为 访问 Cache 的 索引 ,但 标识 却 是 物理 地 址 。CPU 发 出 访 存 请 求 后 ,在 进行 虚 习 实地 
址 变换 的 同时 ,可 并 行进 行 标识 的 读 取 。 在 完成 地 址 变换 之 后 ,再 把 得 到 的 物理 地 址 与 标识 
进行 比较 。 

优点 : 兼 得 虚拟 Cache 和 物理 Cache 的 好 处 。 

局 限 性 : Cache 容量 受到 限制 。 

【 题 7.46】 答 : 原因 : 每 当 进行 进程 切换 时 ,由 于 新 进程 的 虚拟 地 址 (有 可 能 与 原 进 
程 的 相同 ) 所 指向 的 物理 空间 与 原 进 程 的 不 同 , 故 需要 清空 Cache。@ 操 作 系 统 和 用 户 程序 
对 于 同一 个 物理 地 址 可 能 采用 两 种 以 上 不 同形 式 的 虚拟 地 址 来 访问 。 它 们 可 能 会 导致 同一 
个 数据 在 虚拟 Cache 中 存在 两 个 副本 。 

【 题 7.47】 答 : 

(1) 单 体 多 字 并 行 存储 器 一 次 能 读 取 wm 个 指令 字 。 如 果 这 些 指令 字 中 有 分 支 指令 ,而 
且 分 支 成 功 , 那 么 该 分 支 指令 之 后 的 指令 是 无 用 的 。 

(2) 当前 执行 指令 所 需要 的 多 个 操作 数 也 不 一 定 正 好 都 存放 在 同一 个 长 存储 字 中 。 由 
于 数据 存放 的 随机 性 比 程序 指令 存放 的 随机 性 大 ,所 以 发 生 这 种 情况 的 概率 较 大 。 

(3) 在 这 种 存储 器 中 ,必须 资 齐 了 nm 个 数 之 后 才能 一 起 写 和 人 存储器。 如 果 只 写 个 别 字 ， 
就 必须 先 把 相应 的 长 存储 字 读 出 来 , 放 到 数据 寄存 器 中 ,然后 在 地 址 码 的 控制 下 修改 其 中 的 
一 个 字 , 最 后 再 把 长 存储 字 写 回 存储 器 。 

(4) 当 要 读 出 的 数据 字 和 要 写 和 人 的 数据 字 处 于 同一 个 长 存储 字 内 时 , 读 和 写 的 操作 就 
无 法 在 同一 个 存储 周期 内 完成 。 


5. 应 用 题 


【 题 7. 48】 

解 : Cache 不 命中 时 ,5X12% X2.5=1.5 

(1) 考虑 了 Cache 不 命中 时 的 指令 平均 执行 时 间 : 9.5 十 1. 5 二 11( 时 钟 周期 

(2) (11—9.5)=*9.5=15.79% 

它 比 Cache 命中 时 的 指令 平均 执行 时 间 延 长 了 15. 79%。 

【 题 7. 49】 

解 :(1) 平 均 每 条 指令 存储 器 停顿 时 钟 周期 数 = 二 “ 读 ” 的 次 数 X 读 不 命中 率 X 读 不 命中 
开销 十 “ 写 ” 的 次 数 X 写 不 命中 率 X 写 不 命中 开销 =0.8X4%X25 十 0. 5X4%X70==2.2 

(2) CPU 时 间 二 ICX[CPI+( 存 储 停顿 周期 数 /指令 数 )]X 时 钟 周期 时 间 

(3) 考虑 Cache 的 不 命中 后 ,性 能 为 : 

CPU 时 间 =ICX(2.0 十 2.2) 久 时 钟 周期 时 间 =ICX4.2X 时 钟 周期 时 间 

当 考 虑 了 Cache 的 不 命中 影响 后 , CPI 从 理想 计算 机 的 2. 0 增加 到 4. 2, 是 原来 的 

么 工作 : 
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【 题 7. 50】 
解 : (1) 根 据 题 意 , 约 75% 的 访 存 为 取 指令 。 因 此 ,分 离 Cache 的 总 体 不 命中 率 为 : 
(75% X0.15%)+(25% X3.77%)=1.055% 
容量 为 128KB 的 统一 Cache 的 不 命中 率 略 低 一 些 , 只 有 0. 95%。 
(2) 平均 访 存 时 间 公式 可 以 分 为 指令 访问 和 数据 访问 两 部 分 : 
平均 访 存 时 间 = 指令 所 占 的 百分比 X( 读 命中 时 间 十 读 不 命中 率 X 不 命中 开销 ) 十 
数据 所 占 的 百分比 X (数据 命中 时 间 十 数据 不 命中 率 x 不 命中 开销 ) 
所 以 ,两 种 结构 的 平均 访 存 时 间 分 别 为 : 
分 离 Cache 的 平均 访 存 时 间 = 75% X (1 十 0.15% X 50) 十 25% Xx (1 十 3.77% Xx 50) 
= (75% X 1.075) + (25% x 2.885) = 1. 5275 
统一 Cache 的 平均 访 存 时 间 一 75% X (1 十 0.95% X50) 十 25% XX (1 十 1 十 0.95% X50) 
= (75% X 1.475) + (25% X 2.475) = 1.725 
因此 ,尽管 分 离 Cache 的 实际 不 命中 率 比 统一 Cache 的 高 ,但 其 平均 访 存 时 间 反 而 较 
低 。 分 离 Cache 提供 了 两 个 端口 ,消除 了 结构 相关 。 
【 题 7.51】 
解 : 平均 访 存 时 间 王 命中 时 间 十 不 命中 率 X 不 命中 开销 
@ 平均 访 存 时 间 =1 十 (13. 34%X34) 一 5. 54 个 时 钟 周期 
@ 平均 访 存 时 间 =1 十 (7.24%X34) 王 3. 462 个 时 钟 周期 
@ 不 命中 开销 二 30 十 64 二 16X2 一 38 
平均 访 存 时 间 = 王 1 十 (2. 64% X38) 二 2.003 个 时 钟 周期 
@ 不 命中 开销 一 30 十 128 二 16X2 一 46 
平均 访 存 时 间 二 1 十 (2.77% X46) 二 2.274 个 时 钟 周期 
【 题 7.52】 
解 : 修改 平均 访 存 时 间 的 公式 : 平均 访 存 时 间 二 命中 时 间 十 不 命中 率 X 预 取 命 中 率 X 
1 十 不 命中 率 X (1 一 预 取 命 中 率 ) X 不 命中 开销 
则 : 平均 访 存 时 间 王 1 十 (0. 64%X30%X1) 十 (0.64%X(1 一 30%)X60)=1.27 
为 了 得 到 相同 性 能 下 的 实际 不 命中 率 ,我 们 由 原始 公式 得 ; 
平均 访 存 时 间 王 命中 时 间 十 不 命中 率 X 不 命中 开销 
不 命中 率 = (平均 访 存 时 间 一 命中 时 间 ) 二 不 命中 开销 =(1.27 一 1) 二 60==0. 45% 
【 题 7. 53】 
解 : 第 一 级 Cache 的 不 命中 率 ( 全 局 和 局 部 ) 是 110/3000, 即 3. 67%; 
第 二 级 Cache 的 局 部 不 命中 率 是 55/110, 即 50%, 第 二 级 Cache 的 全 局 不 命中 率 是 
55/3000, 即 1.83%%。 
【 题 7. 54】 
解 : 第 一 级 Cache 的 全 局 不 命中 率 == 它 的 局 部 不 命中 率 二 4% 
第 二 级 Cache 的 全 局 不 命中 率 = 第 一 级 Cache 的 全 局 不 命中 率 X 第 二 级 Cache 局 部 不 
命中 率 =4%X30%==1.2% 
第 三 级 Cache 的 全 局 不 命中 率 一 第 一 级 Cache 的 全 局 不 命中 率 X 第 二 级 Cache 局 部 不 
命中 率 X 第 三 级 Cache 局 部 不 命中 率 == 4% X30% X50% 二 0.6% 
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【 题 7. 55】 
解 : 平均 访问 时 间 一 命中 时 间 十 不 命中 率 义 不 命中 开销 
平均 访问 时 间 1.% 二 2. 0 十 1. 4% X80 王 3. 12ns 
平均 访问 时 间 2p 二 2.0X (1 十 10%) 十 1.0% X80 二 3. 0ns 
两 路 组 相 联 的 平均 访问 时 间 比 较 小 。 
CPUam 一 (CPUaf 十 存储 等 待 周 期 ) X 时 钟 周期 
CPUa 一 ICCCPIA 生 十 总 不 命中 次 数 / 指令 总 数 X 不 命中 开销 ) x 时 钟 周期 
二 ICCCCPHA5 X 时 钟 周期 ) 十 (每 条 指令 的 访 存 次 数 X 不 命中 率 XxX 
不 命中 开销 X 时 钟 周期 )) 
CPUsmig = IC(2.0X2 十 1.2X0.014X80) 一 5.344IC 
CPUawms 上 # = IC(2.2X2 十 1.2X0.01X80) = 5.36IC 


相对 性 能 比 : CPUsm pm = 5. 36/5. 344 = 1. 003 
CPU 则 ?路 


直接 映像 Cache 的 访问 速度 比 两 路 组 相 联 Cache 要 快 1.04 倍 , 而 两 路 组 相 联 Cache 的 


平均 性 能 比 直接 映像 Cache 要 高 1. 003 倍 。 因 此 这 里 选择 两 路 组 相 联 。 
【 题 7. 56】 
解 : 采用 按 写 分 配 
(1) 写 直达 
Cache 访问 命中 ,有 两 种 情况 : 
读 命中 ,不 访问 主 存 ; 
写 命中 ,更 新 Cache 和 主 存 , 访 问 主 存 一 次 。 
访问 不 命中 ,有 两 种 情况 : 
读 不 命中 ,将 主 存 中 的 块 调 入 Cache 中 ,访问 主 存 两 次 ; 


写 不 命中 ,将 要 写 的 块 调 入 Cache, 访 问 主 存 两 次 , 青 将 修改 的 数据 写 和 人 Cache 和 主 存 ， 


访问 主 存 一 次 , 共 三 次 。 
上 述 分 析 如 表 7. 3 所 示 。 
表 7.3 写 直达 访 存 情况 分 析 














访问 命中 访问 类 型 频 率 访 存 次 数 
Y 读 95%X75%=71.3% 0 
入 写 95%X25%=23.8% 1 
N 读 5%X75%=3.8% 2 
N 写 5%X25%=1.3% 3 











一 次 访 存 请 求 最 后 真正 的 平均 访 存 次 数 二 (71.3%X0) 十 (23.8%X1) 十 (3.8%X2) 十 


(1.3%X3)=0. 35 
已 用 带宽 =0.35X10’/10?==35.0% 
(2) 写 回 法 
Cache 访问 命中 ,有 两 种 情况 : 
读 命中 ,不 访问 主 存 ; 
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写 命中 ,不 访问 主 存 。 采 用 写 回 法 ,只 有 当 修 改 的 Cache 块 被 换 出 时 , 才 写 入 主 存 。 

访问 不 命中 ,有 一 个 块 将 被 换 出 ,也 有 两 种 情况 : 

如 果 被 替换 的 块 没有 修改 过 ,将 主 存 中 的 块 调和 Cache 块 中 ,访问 主 存 两 次 ; 

如 果 被 蔡 换 的 块 修改 过 , 则 首先 将 修改 的 块 写 入 主 存 ,需要 访问 主 存 两 次 ; 然后 将 主 存 
中 的 块 调 入 Cache 块 中 ,需要 访问 主 存 两 次 , 共 4 次 访问 主 存 , 如 表 7.4 所 示 。 


表 7.4 写 回 法 访 存 情况 分 析 























访问 命中 块 为 脏 频率 访 存 次 数 
¥ N 95% X70%=66.5% 0 
¥ ¥ 95% X30%=28.5% 0 
N N 5%X70%=3.5% 2 
N Y 5%X30%=1.5% 4 
所 以 : 


一 次 访 存 请 求 最 后 真正 的 平均 访 存 次 数 二 66. 5%X0 十 28. 5%X0 十 3. 5% X2 十 1. 5% XX 
4=0.13 

已 用 带宽 =0.13X10’/10 =13% 

【 题 7.57】 

解 : (1) 不 管 做 了 何 种 改进 ,不 命中 开销 相同 。 不 管 是 否 交 换 内 容 , 在 同一 “ 伪 相 联 ” 组 
中 的 两 块 都 是 用 同一 个 索引 得 到 的 ,因此 不 命中 率 相同 , 即 : 不 命中 率 wjg 二 不 命中 率 2j 。 

伪 相 联 Cache 的 命中 时 间 等 于 直接 映像 Cache 的 命中 时 间 加 上 伪 相 联 查 找 过 程 中 的 命 
中 率 X 该 命中 所 需 的 额外 开销 。 

命中 时 间 j 联 三 命中 时 间 1 吕 8 十 伪 命 中 率 gigmx X 1 

交换 或 不 交换 内 容 , 伪 相 联 的 命中 率 都 是 由 于 在 第 一 次 不 命中 时 ,将 地 址 取 反 ,再 进行 
第 二 次 查找 带 来 的 。 

因此 , 伪 命 中 率 wiam 二 命中 率 2p 一 命中 率 1g 二 (1 一 不 命中 率 2g ) 一 (1 一 不 命中 率 1 ) 

二 不 命中 率 1g 一 不 命中 率 2p 。 
交换 内 容 需 要 增加 伪 相 联 的 额外 开销 。 
平均 访 存 时 间 wi 二 命中 时 间 i8 十 (不 命中 率 ig 一 不 命中 率 sw ) X1 十 
不 命中 率 s X 不 命中 开销 1% 
(2) 将 题 设 中 的 数据 带 入 计算 ,得 到 : 
平均 访 存 时 间 zrs 一 1 十 (0.098 一 0.076) X1 十 (0.076 X50) = 4.822 
平均 访 存 时 间 iwsrs 一 1 十 (0.010 一 0.007) X1 十 (0.007X50) 一 1.353 

显然 128KB 的 伪 相 联 Cache 要 快 一 些 。 

【 题 7. 58】 

解 : (1) CPI 二 CPI a 十 存储 停顿 周期 数 /指令 数 

存储 停顿 由 下 列 原因 引起 : 

。 从 主 存 中 取 指 令 

。 Load 和 Store 指令 访问 数据 

。 由 TLB 引 起 
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在 储 停顿 周期 数 _ 取 指 令 停顿 人 十 TLB 停顿 








指令 数 指令 数 令 数 
你 护 周期 数 _ 二 x 失效 率 x 失效 开销 





人 (及 指令 已 指 令 ) 十 《数据 尺 数据 忆 数据 ) 车 生 指令 和 
(2) 对 于 理想 TLB,TLB 不 命中 开销 为 0。 而 对 于 统一 Cache, Ry 二 Rw 所 
Ps4 一 主 存 延 迟 十 传输 一 个 块 需要 使 用 的 时 间 = 40 十 32/4 一 48( 拍 ) 
若 为 读 不 命中 ,Pg 二 主 存 延迟 十 传输 一 个 块 需要 使 用 的 时 间 二 40 十 32/4 二 48( 拍 ) 
车 为 写 不 命中 , 且 块 是 干净 的 ， 
Pg 提 二 主 存 延 迟 十 传输 一 个 块 需要 使 用 的 时 间 = 40 十 32/4 = 48( 拍 ) 
若 为 写 不 命中 , 且 块 是 脏 的 ， 
Pw 二 主 存 延迟 十 传输 两 个 块 需要 使 用 的 时 间 = 40 十 64/4 二 56( 拍 ) 
CPI= 1.5 十 [RP 十 (RPX20%) 十 0] 
指令 访 存 全 是 读 , 而 数据 传输 指令 Load 或 Store 指令 ， 
fx 所 X Pw 所 二 读 百 分 比 X (fw X Pg 所 ) 十 写 百分比 X (fw 所 X 已 于 站 数据 儿 
其 对 应 的 百分比 十 fx X Peg 所 X 其 对 应 的 百分比 ) 
= 20% x (75% x 48+25% x (50% x 48+50% x (48 十 16))) 




















二 50( 拍 ) 
代入 上 述 公式 计算 出 结果 如 表 7. 5 所 示 。 
表 7.5 计算 结果 
配 置 不 命中 率 CPI 
16KB 直接 统一 映像 0.029 2.95 
16KB 两 路 统一 映像 0.022 2.6 
32KB 直接 统一 映像 0.020 2.5 
【 题 7. 59】 
解 : (1) 提高 Cache 的 相 联 度 , 可 以 减少 冲突 不 命中 的 次 数 , 但 不 会 影响 强制 性 不 命中 
和 容量 不 命中 的 次 数 。 


已 知 Cache 的 不 命中 率 为 7% ,程序 共 访 问 存储 器 1000 000 次 ,所 以 总 的 不 命中 次 数 为 
70 000, 其 中 50% 为 冲突 不 命中 的 次 数 。 

因此 ,提高 Cache 的 相 联 度 能 够 消除 的 最 大 不 命中 次 数 是 : 70 000X50% 二 35 000。 

(2) 当 同 时 提高 Cache 的 容量 大 小 和 相 联 度 时 ,可 以 消除 容量 不 命中 和 冲突 不 命中 的 
次 数 。 而 这 两 种 不 命中 占 总 不 命中 次 数 的 75%, 所 以 ,能 够 消除 的 最 大 不 命中 次 数 是 : 
70 000X75%=52 500。 

【 题 7. 60】 

解 : m 个 分 体 低位 交叉 编 址 存储 器 的 最 大 带宽 为 : 


直 存储 字 长 4B 
分 体 数 x 单 体 带 宽 mw X 存储 周 其 mxX 
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0.6 X 最 大 带宽 = 0.6XmX 全 
2ps 


现在 要 求实 际 带宽 大 于 或 等 于 4MB/s, 即 近似 于 4B/ps, 故 : 
0.6 x mx 2 > 4B/ps 


可 得 mw 宇 3. 667, 所 以 主 存 分 体 数 应 取 为 4。 

【 题 7.61】 

解 : 因为 主 存 容量 为 1M 字 ==2” 字 ,所 以 主 存 地 址 为 : 20 位 。 

Cache 容量 为 4K 字 王 22 字 ,所 以 Cache 地 址 为 : 12 位 。 

因为 主 存 由 8 个 存储 体 按 低位 交叉 编 址 方式 组 成 ,一 个 主 存 周 期 能 同时 对 8 个 存储 体 
并 行 访问 ,所 以 , 块 大 小 为 8 个 字 。 

因此 块 内 位 移 为 : 3 位 。 

可 得 主 存 的 块 地 址 为 20 一 3 二 17 位 ; Cache 的 块 地 址 为 12 一 3==9 位 。 

相 联 目录 表 的 行 数 二 Cache 的 块 数 = 二 2 = 二 512 行 。 

相 联 目录 表 的 比较 位 数 = 主 存 块 地 址 的 位 数 =17 位 。 

相 联 目录 表 的 宽度 为 : 

主 存 块 地 址 位 数 十 Cache 块 地 址 位 数 十 有 效 位 位 数 三 17 十 9 十 1 二 27 位 。 

相 联 目录 表 总 位 数 为 : 

行 数 X 宽 度 =512X27==13 824 位 。 

【 题 7. 62】 

解 : 每 个 存储 周期 能 访问 到 的 平均 字数 为 : 

WY i et ba 
A 

已 知 4=25% ,m= 二 32, 可 得 : 
l=(=A. l=0075* 

A 0.25 





B 





即 每 个 存储 周期 能 访问 到 4 个 字 。 

如 果 4= 二 25%,m 二 16, 可 得 : 

1 一 (1 一 D)”_ 1—0.75’ 
议 0:.25 
即 每 个 存储 周期 能 访问 到 3. 96 个 字 。 
由 此 可 以 看 出 , 当 转 移 概率 为 25% ,比较 大 时 ,采用 模 32 和 模 16 的 每 个 存储 周期 能 访 

问 到 的 平均 字数 非常 相近 。 就 是 说 ,此 时 靠 提 高 模 数 m 来 提高 主 存 实际 带宽 的 效果 不 大 。 








B x 3.96 


第 8 章 输入 输出 系统 


8.1 基本 要 求 与 难点 


8.1.1 基本 要 求 


(1) 掌握 有 关 输 入 输出 系统 的 基本 概念 。 

(2) 理解 I/O 系统 的 性 能 参数 ,理解 存储 外 设 的 可 靠 性 参数 : 可 靠 性 .可 用 性 和 可 
信人 性 。 

(3) 理解 廉价 磁盘 元 余 阵 列 RAID 的 相关 概念 ,掌握 各 级 RAID 的 结构 .工作 原理 和 
特点 。 

(4) 理解 总 线 设计 所 需 考 虑 的 问题 ,了 解 若干 总 线 标准 和 实例 ,了 解 总 线 与 CPU 的 
连接 。 

(5) 理解 通道 的 作用 和 功能 ,熟练 掌握 通道 的 工作 过 程 。 

(6) 掌握 通道 的 分 类 以 及 各 类 通道 的 工作 原理 和 特点 。 

(7) 能 熟练 地 进行 通道 的 流量 分 析 。 

(8) 了 解 DMA 对 虚拟 存储 器 的 影响 ,了 解 /O 对 Cache 数据 一 致 性 的 影响 。 


8.1.2 难点 
(1) 各 级 RAID 的 结构 .工作 原理 和 特点 。 


(2) 各 类 通道 的 工作 原理 和 特点 。 
(3) 通道 的 流量 分 析 。 


8.2 知识 要 点 


8.2.1 1/O 系统 的 性 能 


1/O 系统 的 性 能 对 CPU 的 性 能 有 很 大 的 影响 , 若 两 者 的 性 能 不 匹配 ,I/O 系统 就 有 可 
能 成 为 整个 系统 的 瓶 项 。 系 统 的 响应 时 间 是 衡量 系统 性 能 的 一 个 很 好 的 指标 。 它 是 指 从 用 
户 输入 命令 开始 ,到 得 到 结果 所 花 的 时 间 。 这 个 时 间 由 两 部 分 构成 : 1/O 系统 的 响应 时 间 
以 及 CPU 的 处 理 时 间 。 如 果 1/O 系统 的 响应 时 间 很 长 ,CPU 再 快 也 没 用 。 
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评价 IO 系统 性 能 的 参数 主要 有 : 连接 特性 ,VO 系统 的 容量 ,响应 时 间 和 吞吐 率 等 。 
连接 特性 是 指 哪 些 1/O 设备 可 以 和 计算 机 系统 相连 接 ,IVO 系统 的 容量 是 指 1/O 系统 可 以 
容纳 的 W/O 设备 数 。 


8.2.2 I/O 系统 的 可 靠 性 .可 用 性 和 可 信和 性 


系统 的 可 靠 性 是 指 系 统 从 某 个 初始 参考 点 开始 一 直 连 续 提供 服务 的 能 力 , 它 通 常用 平 
均 无 故障 时 间 (Mean Time To Failure, MTTF) 来 衡量 。MTTF 的 倒数 就 是 系统 的 失效 率 。 
如 果 系 统 中 每 个 模块 的 生存 期 服从 指数 分 布 , 则 系统 整体 的 失效 率 是 各 部 件 的 失效 率 之 和 。 
系统 中 断 服务 的 时 间 用 平均 修复 时 间 (Mean Time To Repair, MTTR) 来 衡量 。 

系统 的 可 用 性 是 指 系统 正常 工作 的 时 间 在 连续 两 次 正常 服务 间隔 时 间 中 所 占 的 比率 。 


可 用 性 一 TAR (8.1) 

式 (8.1) 中 的 MTTF 十 MTTR 通常 可 以 用 平均 失效 间隔 时 间 (Mean Time Between 
Failures,MTBF) 来 代替 。 

系统 的 可 信和 性 是 指 服务 的 质量 , 即 在 多 大 程度 上 可 以 合理 地 认为 服务 是 可 靠 的。 可 信 
性 与 可 靠 性 和 可 用 性 不 同 , 它 是 不 可 以 度量 的 。 

提高 系统 组 成 部 件 的 可 靠 性 的 方法 包括 有 效 构 建 方法 和 纠 错 方法 。 有 效 构建 是 指 在 构 
建 系统 的 过 程 中 消除 故障 隐患 ,这 样 建立 起 来 的 系统 就 不 会 出 现 故 障 。 纠 错 方法 是 指 在 系 
统 构建 中 采用 容错 的 方法 。 这 样 即 使 出 现 故 障 , 也 可 以 通过 容错 信息 保证 系统 正常 工作 。 


8.2.3 廉价 磁盘 宛 余 阵列 RAID 


磁盘 阵列 (Disk Array,DA) 是 使 用 多 个 磁盘 (包括 驱动 器 ) 的 组 合 来 代替 一 个 大 容量 的 
磁盘 。 这 不 仅 能 比较 容易 地 构建 大 容量 的 磁盘 存储 器 系统 ,而 且 可 以 提高 系统 的 性 能 。 磁 
盘 阵 列 一 般 是 以 条 带 为 单位 把 数据 均匀 地 分 布 到 多 个 磁盘 上 (交叉 存放 )。 条 带 存放 使 得 磁 
盘存 储 器 系统 可 以 并 行 地 处 理 多 个 数据 读 / 写 请 求 , 从 而 提高 总 的 1/O 性 能 。 

我 们 可 以 通过 在 磁盘 阵列 中 设置 元 余 信息 盘 来 解决 可 靠 性 下 降 的 问题 。 当 单个 磁盘 失 
效 时 ,丢失 的 信息 可 以 通过 宛 余 盘 中 的 信息 重新 构建 。 由 于 磁盘 的 平均 无 故障 时 间 MTTF 
为 几 十 年 ,而 平均 修复 时 间 MTTR 只 有 几 个 小 时 ,所 以 容错 技术 使 得 磁盘 阵列 的 可 靠 性 比 
单个 磁盘 高 很 多 。 这 种 磁盘 阵列 被 称 为 RAID, 即 廉价 磁盘 宛 余 阵 列 (Redundant Array of 
Inexpensive Disks), 有 些 书 里 也 将 其 称 为 独立 磁盘 郊 余 阵列 (Redundant Array of 
Independent Disks) 。 

大 多 数 磁盘 阵列 的 组 成 可 以 用 以 下 两 个 特征 来 区 分 。 

(1) 数据 交叉 存放 的 粒度 ; 

(2) 宛 余 数据 的 计算 方法 以 及 在 磁盘 阵列 中 的 存放 方式 。 

数据 交叉 存放 的 粒度 有 细 粒 度 和 粗 粒度 之 分 。 细 粒度 磁盘 阵列 是 在 概念 上 把 数据 分 割 
成 相对 较 小 的 单位 交叉 存放 。 这 样 几乎 所 有 的 1/O 请 求 , 不 管 大 小 ,都 会 访问 磁盘 阵列 中 
的 所 有 磁盘 。 其 结果 是 所 有 1/O 请 求 都 能 够 获得 很 高 的 数据 传输 率 。 其 缺点 是 在 任何 时 
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间 , 都 只 有 一 个 逻辑 上 的 1/O 在 处 理 当中 ,而 且 所 有 的 磁盘 都 会 因为 为 每 个 请 求 进行 定位 


而 浪费 时 间 。 


粗 粒 度 磁盘 阵列 是 把 数据 以 相对 较 大 的 单位 交叉 存放 。 这 样 规模 较 小 的 W/O 请 求 只 
需要 访问 数量 较 少 的 几 个 磁盘 ,只 有 较 大 规模 的 请 求 才 会 访问 到 所 有 的 磁盘 。 多 个 较 小 规 
模 的 请 求 可 以 同时 得 到 处 理 , 而 对 于 较 大 规模 的 请 求 来 说 又 能 获得 较 高 的 传输 率 。 

在 元 余 信 息 的 计算 方面 ,当今 的 磁盘 阵列 大 多 都 是 采用 奇偶 校 验 码 ,但 也 有 采用 汉 明 码 
或 Reed-Solomon 码 的 。 在 元 余 信息 的 存放 方式 方面 ,有 两 种 方法 : 中 把 宛 余 信息 集中 存放 
在 少数 的 几 个 盘 中 ; @ 把 元 余 信 息 均 匀 地 存放 到 所 有 的 盘 中 。 

在 RAID 中 增加 宛 余 信 息 盘 有 几 种 不 同 的 方法 ,它们 构成 了 不 同 的 RAID 级 别 , 如 
表 8.1 所 示 。 各 级 RAID 的 代价 和 性 能 各 不 相同 。 


表 8.1 RAID 的 分 级 及 其 特性 



































可 以 容忍 的 故障 个 数 
RAID 级 别 以 及 当 数据 盘 为 8 个 时 ， 优点 缺点 公司 产品 
所 需要 的 检测 盘 的 个 数 
0 非 宛 余 , 条 带 存放 | " 个 故障 没有 空间 开销 。 “| 没有 纠 错 能 力 | 广泛 应 用 
0 个 检测 盘 
不 需要 计算 奇偶 术 
验 ,数据 恢复 快 , 读 | 检测 空间 开销 最 大 
1 镜像 人 数据 快 。 而 且 其 小 |( 即 需要 的 检测 最 | CY， Mi 
规模 写 操作 比 更 高 | 多 ) 
级 别 的 RAID 快 
检测 空间 开销 的 级 
个 A FR 了 
2 存储 器 式 ECC a 人 人 放 罗 夺 玲 计生 别 是 logem 级 Cm 为 | 没有 
数据 盘 的 个 数 
ji 需要 的 检测 得) 对 小 规模, 随机 的 该 
[ 念 
3 位 交叉 奇偶 校 验 |) 个 检测 和 大 大 机 计 写 失 作 人 | 写 失 作 有 提供 特 | 外 让 
带宽 高 
检测 空间 开销 小 ,小 
1 个 故障 ; 校 验 盘 是 小 规模 写 | ，。， 
4 专 交 叉 奇偶 校 验 | 个 检测 和 的 计 作出 二 ye 网 络 设备 
检测 空间 开销 小 ;小 
5 块 交叉 分 布 奇偶 | 1 个 故障 ; 小 规模 写 操作 需要 
校 验 1 个 检测 盘 规模 的 读 写 操作 带 | 访问 磁盘 4 次 | 广泛 应 用 
宽 更 高 
不 规模 写 操作 需要 
2 个 故障 ; 具有 容忍 两 个 故障 | 访问 磁盘 6 次 ,检测 | 。,，， 
6Pt+Q 双 奇偶 校 验 |， 和 测 盘 的 能 力 空间 开销 加 借 (与 | 网 络 设备 
RAID3、4、5 比较 ) 
1. RAIDO 


RAID0 是 非 元 余 磁盘 阵列 。 它 是 RAID 中 最 简单 的 一 种 ,实现 成 本 也 最 低 。 它 把 数据 
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切 分 成 条 带 (strip) ,以 条 带 为 单位 交叉 地 分 布 存放 到 多 个 磁盘 中 。 当 从 磁盘 阵列 中 按 顺 序 
读 取 这 些 数据 时 ,所 有 的 磁盘 都 可 以 并 行 工作 ,各 自 读 出 相应 的 部 分 。 因 此 其 性 能 很 高 。 但 
由 于 RAID0 不 提供 数据 元 余 , 因 此 一 旦 数据 被 损坏 ,将 无 法 得 到 恢复 。 


2.RAID1 


RAID1 是 最 基本 的 一 种 元 余 磁 盘 阵 列 , 称 为 镜像 磁盘 。 其 核心 思想 是 对 所 有 的 磁盘 数 
据 提 供 一 份 元 余 的 备份 。 每 当 把 数据 写 入 磁盘 时 ,都 要 将 该 数据 也 写 和 其 镜像 盘 。 因 而 在 
系统 中 所 有 的 数据 都 有 两 份 。 

优点 : 简单 , 且 能 实现 快速 的 读 取 操作 。 其 速度 比 级 别 更 高 的 RAID 都 快 。 数 据 的 恢 
复 也 很 简单 ,不 需要 进行 数据 重建 计算 。 

缺点 : 所 需要 的 磁盘 的 总 数 是 采用 镜像 前 磁盘 个 数 的 两 倍 。 实 现成 本 最 高 。 


3. RAID2 


RAID2 是 存储 器 式 的 磁盘 阵列 。 之 所 以 有 这 样 的 名 称 ,是 因为 它 是 按 Hamming 纠 错 
码 的 思路 来 构建 的 。 每 个 数据 盘存 放 所 有 数据 字 的 一 位 , 按 位 交叉 存放 。 而 每 当 从 数据 盘 
读 出 数据 时 ,把 其 Hamming 码 也 读 出 来 ,用 于 判断 数据 是 否 有 错 。 

虽然 在 RAID 的 分 级 上 有 这 一 级 ,但 实际 上 并 没有 商业 化 的 产品 。 


4. RAID3 


RAID3 即位 交叉 奇偶 校 验 磁盘 阵列 。 

因为 当 某 个 磁盘 出 故障 时 ,磁盘 控制 器 本 身 能 够 很 容易 地 发 现 是 哪个 磁盘 出 错 , 所 以 采 
用 奇偶 校 验 就 够 了 。 故 设置 一 个 校 验 盘 , 专 门 用 于 存放 数据 盘 中 相应 数据 的 奇偶 校 验 。 在 
数据 写 人 磁盘 时 ,为 每 行 数据 形成 奇偶 校 验 位 并 写 入 校 验 盘 。 在 读 出 数据 时 ,如果 控 制 器 发 
现 某 个 磁盘 出 故障 ,就 可 以 根据 故障 盘 以 外 的 所 有 其 他 盘 中 的 正确 信息 恢复 故障 盘 中 的 数 
据 , 这 是 通过 异 或 运算 来 实现 的 。 即 使 故障 盘 为 校 验 盘 , 也 可 以 照 此 处 理 。 

这 是 一 种 细 粒 度 的 磁盘 阵列 , 即 采 用 的 条 带宽 度 较 小 ,甚至 可 以 是 1 个 字 节 或 1 位 。 

优点 : 由 于 是 细 粒 度 的 ,所 以 对 于 绝 大 多 数 的 1/O 请 求 ,都 需要 磁盘 阵列 中 的 所 有 磁 
盘 为 之 服务 ,因而 能 够 获得 很 高 的 数据 传输 率 。 这 种 磁盘 阵列 对 大 数据 量 的 读 写 具 有 很 
大 的 优越 性 。 另 外 ,不 管 数据 盘 有 多 少 个 ,RAID3 只 需要 一 个 校 验 盘 , 校 验 空 间 开 销 比 
较 小 。 

缺点 : 不 能 同时 进行 多 个 1/O 请 求 的 处 理 , 对 多 个 小 规模 的 1/O 请 求 来 说 表现 较 差 。 


5. RAID4 


RAID4 是 块 交 又 奇偶 校 验 磁盘 阵列 。 

许多 应 用 程序 中 磁盘 读 写 都 是 小 规模 的 访问 。 对 于 这 些 应 用 来 说 ,磁盘 阵列 最 好 能 同 
时 处 理 多 个 小 规模 访问 请 求 。 采 用 粗 粒 度 的 磁盘 阵列 就 能 实现 这 一 目标 , 即 采用 比较 大 的 
条 带 , 以 块 为 单位 进行 交叉 存放 和 计算 奇偶 校 验 ,这 就 是 RAID4。 

优点 : 每 个 磁盘 能 够 独立 地 进行 读 操作 ,从 而 提高 单位 时 间 完 成 的 读 操 作 的 数量 。 对 
于 读 取 操作 ,每 次 只 需 访问 数据 所 在 的 磁盘 。 仅 在 磁盘 出 现 故障 时 , 才 会 去 读 校 验 盘 ,并 进 
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行 数据 的 重建 。RAID4 除了 能 有 效 地 处 理 小 规模 访问 ,而且 能 跟 RAID3 一 样 快速 地 处 理 
大 规模 访问 。 此 外 ,RAID4 的 校 验 空间 开销 也 比较 小 ,只 需要 一 个 校 验 盘 。 

缺点 : 对 于 写 人 操作 ,由 于 要 重新 计算 校 验 码 , 所 以 要 对 多 个 磁盘 进行 读 和 写 的 操 
作 。 这 对 磁盘 访问 的 速度 有 较 大 的 影响 。 而 且 系统 中 只 有 一 个 校 验 盘 , 它 很 容易 成 为 
瓶颈 。 


6. RAIDS 


RAID5 是 块 交叉 分 布 奇偶 校 验 磁盘 阵列 。 

在 RAID4 中 ,所 有 的 写 入 操作 都 必须 读 和 写 校 验 盘 。 而 系统 中 校 验 盘 只 有 一 个 ,很 
容易 成 为 瓶颈 。RAID5 通过 把 校 验 信息 分 布 到 磁盘 阵列 中 的 各 个 磁盘 来 解决 这 个 问题 。 
这 里 每 一 行 数据 块 的 校 验 块 被 依次 错开 ,循环 地 存放 到 不 同 的 盘 中 ,以 达到 均匀 分 布 的 
目的 。 

优点 : 除了 能 跟 RAID3 一 样 快 地 处 理 大 规模 访问 、 能 跟 RAID4 一 样 快 地 处 理 小 规模 
读 操 作 以 外 ,还 能 比 它们 都 更 快 地 处 理 小 规模 写 操作 。 而 且 校 验 空间 开销 比较 小 ,也 是 只 需 
要 一 个 校 验 盘 。 

缺点 : 其 控制 器 是 经 典 RAID(CRAID1 一 RAID5) 中 最 复杂 的 了 。 


7. RAID6 


RAID6 是 P 十 Q 双 校 验 磁盘 阵列 。 它 是 在 RAID5 的 基础 上 增加 了 一 个 独立 的 校 验 信 
息 , 放 在 另 一 个 校 验 盘 中 。 

优点 : 能 够 容忍 两 个 磁盘 出 错 , 很 适合 于 重要 数据 的 保存 。 

缺点 : 所 需 的 校 验 空间 开销 是 RAID5 的 两 倍 。 写 操作 要 访问 磁盘 的 次 数 比较 多 。 


8. RAID10 与 RAID01 


它们 都 是 RAID0 与 RAID1 相 结 合 的 结果 ,其 区 别 在 于 先 做 什么 。 假 设 共 有 8 个 磁盘 ， 
那么 由 于 需要 镜像 ,就 相当 于 只 有 4 个 盘 可 用 来 存放 数据 ,另外 4 个 盘 是 作为 镜像 盘 。 
RAID1 十 0 是 先进 行 镜像 (RAID1) ,然后 再 进行 条 带 存放 (RAID0), 即 把 盘 分 为 4 组 ,组 内 
做 镜像 ,组 之 间 按 条 带 存 放 。RAID0 十 1 是 先进 行 条 带 存放 (RAID0), 然 后 青 进行 镜像 
(RAID1) , 即 组 内 按 条 带 存 放 , 组 之 间 做 镜像 。 


8.2.4 总线 

总 线 的 优点 是 简单 .成 本 低 。 其 主要 缺点 在 于 它 是 由 不 同 的 外 设 分 时 共享 的 ,形成 了 信 
息 交换 的 瓶颈 ,从 而 限制 了 系统 中 总 的 /O 吞吐 量 。 

1. 总 线 的 设计 


与 计算 机 中 其 他 子 系统 的 设计 一 样 ,总 线 的 设计 取决 于 需要 达到 的 性 能 和 实现 成 本 。 
表 8. 2 给 出 了 设计 总 线 时 需要 考虑 的 一 些 问题 。 
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表 8.2 总 线 的 主要 特性 




















特 性 高 性 能 低 价 格 

总 线 宽度 独立 的 地 址 和 数据 总 线 数据 和 地 址 分 时 共用 同一 套 总 线 

数据 总 线 宽度 | 越 宽 越 快 (例如 : 64 位 ) 越 窗 越 便宜 (例如 : 8 位 》 

传输 块 大 小 ”| 块 越 大 总 线 开销 越 小 单字 传送 更 简单 

总 线 主 设备 ”| 多 个 (需要 仲裁 ) 单个 (无 须 仲裁 ) 

分 离 事 务 采用 ,因为 分 离 的 请 求 包 和 回答 包 能 提高 | 不 采用 ,因为 持续 连接 成 本 更 低 , 而 且 延 迟 
总 线 带宽 更 小 

定时 方式 同步 异步 








显然 , 表 中 的 前 三 点 的 观点 是 非常 明确 的 。 采 用 独立 的 地 址 和 数据 线 、 更 宽 的 数据 总 线 
以 及 成 块 的 数据 传输 都 将 提高 总 线 的 性 能 。 当 然 , 这 同时 也 带 来 了 成 本 的 提高 。 

在 有 多 个 主 设备 的 情况 下 ,如 果 不 采用 传统 的 持续 占用 总 线 的 方法 ,而 改 用 包 交 换 ,就 
能 提高 总 线 带宽 。 其 基本 思想 是 将 总 线 事务 分 成 请 求 和 应 答 两 部 分 。 在 请 求 和 应 答 之 间 的 
空 闪 时 间 内 ,总 线 可 以 供给 其 他 的 1/O 使 用 。 当 发 出 读 请 求 、 存 储 器 根据 地 址 去 读数 据 字 
时 ,分 离 事务 总 线 被 释放 ,允许 其 他 主 设备 使 用 。 采 用 这 种 技术 的 总 线 称 为 分 离 事 务 总 线 ， 
也 称 为 包 交 换 总 线 等 。 分 离 事务 总 线 有 较 高 的 带宽 ,但 是 它 的 数据 传送 延迟 通常 比 独占 总 
线 方法 的 大 。 


2. 总 线 标准 和 实例 


1/O 总 线 是 计算 机 系统 中 连接 设备 的 接口 。 制 定 总 线 标准 是 非常 重要 的 ,因为 只 要 计 
算 机 和 I/O 设备 的 设计 都 满足 相同 的 标准 ,那么 任意 一 台 1/O 设备 就 可 以 与 任意 一 台 计算 
机 相连 接 。1/O 总 线 标准 就 是 定义 如 何 将 设备 与 计算 机 进行 连接 的 文档 。 

常见 的 并 行 1/O 总 线 有 : IDE/Ultra ATA,SCSI,PCI,PCLX 等 ; 常见 的 串 行 1/O 总 线 
有 : IEC,1-wire,RS-232,SPI 等 。 

3. 与 CPU 的 连接 

1/O 总 线 的 物理 连接 方式 有 两 种 选择 ,一 种 是 连接 到 存储 器 上 , 另 一 种 是 连接 到 Cache 
上 。 一般 来 说 ,前 者 更 常见 一 些 。 在 一 些 低 成 本 的 系统 中 ,1/O 总 线 往往 就 是 CPU- 主 存 总 
线 , 此 时 总 线 上 的 1/O 命令 将 影响 CPU 的 访 存 , 例 如 取 指 令 。 

CPU 对 1/O 设备 的 编 址 有 两 种 方式 。 最 常用 的 方式 是 “存储 器 映射 IO”, 也 称 为 MO 
设备 统一 编 址 方式 。 在 这 种 方法 中 ,将 一 部 分 存储 器 地 址 空间 分 配给 1/O 设备 ,用 load 指 
令 和 store 指令 对 这 些 地 址 进行 读 写 将 引起 I/O 设备 的 输入 和 输出 操作 。 

另 一 种 1/O 设备 的 编 址 方式 是 MO 设备 独立 编 址 ,并 在 CPU 中 设置 专用 的 1/O 指令 
来 访问 它们 。 


8.2.5 通道 处 理 机 


1. 通道 的 作用 和 功能 
为 了 把 对 外 设 的 管理 工作 从 CPU 中 分 离 出 来 ,使 CPU 摆脱 繁重 的 输入 /输出 负担 ,也 
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为 了 使 设备 能 共享 输入 /输出 接口 ,从 IBM360 系列 机 开始 ,普遍 采用 了 通道 技术 。 即 由 一 
种 称 为 通道 的 专用 处 理 机 来 专门 负责 整个 计算 机 系统 的 输入 /输出 工作 。 通 道 处 理 机 只 能 
执行 有 限 的 一 组 输入 输出 指令 。 

大 型 计算 机 系统 可 以 有 多 个 通道 ,每 个 通道 可 以 连接 多 个 设备 控制 器 ,而 每 个 控制 器 又 
可 以 管理 一 台 或 多 台 外 设 。 这 样 就 形成 了 一 个 典型 的 由 CPU 通道 .设备 控制 器 .外 设 构 成 
的 4 级 层次 结构 的 输入 /输出 系统 。 

一 般 来 说 ,通道 的 功能 包括 以 下 几 个 方面 。 

(1) 接收 CPU 发 来 的 1/O 指令 ,并 根据 指令 要 求 选择 指定 的 外 设 与 通道 相连 接 。 

(2) 执行 通道 程序 。 并 根据 需要 向 被 选中 的 设备 控制 器 发 出 各 种 操作 命令 。 

(3) 给 出 外 设 中 相关 数据 所 在 的 地 址 。 如 磁盘 存储 器 的 柱 面 号 、 磁 头号 、 扇 区 号 等 。 

(4) 给 出 主 存 缓冲 区 的 首 地 址 。 

(5) 控制 外 设 与 主 存 缓冲 区 之 间 的 数据 传送 的 长 度 。 即 对 传送 的 数据 个 数 进行 计数 ， 
并 判断 数据 传送 是 否 结束 。 

(6) 指定 传送 工作 结束 时 要 进行 的 操作 。 例 如 ,将 外 设 的 中 断 请 求 及 通道 的 中 断 请 求 
送 往 CPU 等 。 

(7) 检查 外 设 的 工作 状态 是 否 正常 ,并 将 该 状态 信息 送 往 主 存 指定 单元 保存 。 

(8) 在 数据 传输 过 程 中 完成 必要 的 格式 变换 ,例如 ,把 字 拆 分 为 字 节 。 

通道 的 主要 硬件 如 下 。 

(1) 寄存 器 : 数据 缓冲 寄存 器 , 主 存 地 址 计数 器 ,传输 字 节 数 计数 器 ,通道 命令 字 寄 存 
器 ,通道 状态 字 寄 存 器 等 。 

(2) 控制 逻辑 : 分 时 控制 ,地 址 分 配 ,数据 传送 ,数据 装配 和 拆 分 等 。 

通道 对 外 设 的 控制 通过 输入 /输出 接口 和 设备 控制 器 进行 。 通 道 与 设备 控制 器 之 间 一 
般 采 用 标准 的 输入 /输出 接口 来 连接 。 通 道 通过 标准 接口 把 操作 命令 送 到 设备 控制 器 ,设备 
控制 器 解释 并 执行 这 些 通道 命令 ,完成 命令 指定 的 操作 。 设 备 控制 器 能 够 记录 外 设 的 状态 ， 
并 把 状态 信息 送 往 通道 和 CPU。 


2. 通道 的 工作 过 程 


用 户 通过 调用 通道 来 完成 一 次 数据 输入 输出 的 过 程 如 图 8. 1 所 示 ,CPU 执行 程序 和 通 
道 执行 通道 程序 的 时 间 关 系 如 图 8. 2 所 示 。 

利用 通道 完成 一 次 数据 传输 的 主要 过 程 分 为 以 下 三 步 。 

(1) 在 用 户 程序 中 使 用 访 管 指令 进入 管理 程序 ,由 管理 程序 来 编制 一 个 通道 程序 ,并 启 
动 通道 。 

(2) 通道 处 理 机 执行 通道 程序 ,完成 指定 的 数据 输入 /输出 工作 。 

(3) 通道 程序 结束 后 向 CPU 发 中 断 请 求 。 

数据 传送 完成 后 ,通道 向 CPU 发 1/O 中断 请 求 。CPU 响应 该 中 断 请 求 ,再 次 进入 管 
态 ,调用 相应 的 管理 程序 对 该 中 断 请 求 进 行 处 理 。 然 后 .CPU 返回 到 目 态 ,继续 进行 目 态 程 
序 的 执行 。 

这 样 ,在 每 一 次 输入 /输出 中 ,CPU 只 需要 两 次 调用 管理 程序 ,大 大 减少 了 对 用 户 程序 
的 打扰 。 当 系统 中 有 多 个 通道 同时 工作 时 ,CPU 与 多 种 不 同类 型 .不同 速度 的 外 设 可 以 充 
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通道 程序 情况 处 理 
启动 WO 通道 | 
8.2 CPU 执行 程序 和 通道 执行 通道 程序 的 时 间 关系 
分 并 行 地 工作 。 
3. 通道 种 类 


1) 字 节 多 路 通道 

字 节 多 路 通道 是 一 种 简单 的 共享 通道 ,用 于 连接 多 台 低 速 或 中 速 的 设备 。 这 些 设 备 一 
般 是 以 字 节 为 宽度 进行 输入 /输出 ,而 且 相 邻 的 两 次 传送 之 间 有 较 长 时 间 的 等 待 。 字 节 多 路 
通道 以 字 节 交叉 的 方式 分 时 轮流 地 为 它们 服务 。 

2) 选择 通道 

像 磁 盘存 储 器 这 样 的 高 速 外 设 需要 很 高 的 数据 传输 率 ,因此 应 该 设置 专门 的 通道 ,在 一 
段 时 间 内 只 为 一 台 高 速 外 设 独占 使 用 。 这 就 是 选择 通道 。 当 有 多 台 高 速 设备 请 求 传送 数据 


第 8 章 输入 输出 系统 185 





时 ,选择 通道 是 按照 一 定 的 规则 对 要 服务 的 设备 进行 选择 。 一 旦 选中 某 一 设备 ,通道 就 进入 
“ 忙 ”状态 ,直到 该 设备 的 数据 传输 工作 全 部 完成 为 止 。 处 理 完 后 , 青 重 新 选择 。 

3) 数组 多 路 通道 

数组 多 路 通道 可 以 看 成 是 字 节 多 路 通道 与 选择 通道 相 结合 的 产物 。 与 选择 通道 一 样 ， 
它 也 是 适用 于 高 速 设备 , 但 它 不 像 选 择 通 道 那 样 一 次 就 把 所 选 设备 的 数据 全 部 传送 完 , 而 是 
在 传送 完 固定 长 度 的 一 个 数据 块 (例如 512 字 节 ) 之 后 ,就 重新 选择 别 的 设备 。 因 此 它 是 以 
数据 块 为 单位 分 时 轮流 地 为 多 台 高 速 设备 提供 服务 。 

数组 多 路 通道 之 所 以 能 够 并 行 地 为 多 台 高 速 设备 服务 ,是 因为 虽然 其 所 连 设备 的 传输 
速率 很 高 ,但 其 寻 址 等 辅助 操作 时 间 很 长 。 例 如 ,磁盘 存储 器 的 寻 址 时 间 要 比 数据 传输 时 间 
长 两 个 数量 级 以 上 。 数 组 多 路 通道 在 向 一 台 高 速 设备 发 出 定位 命令 后 ,就 立即 从 迎 辑 上 与 
该 设备 断 开 ,直到 定位 完成 时 再 进行 连接 ,发 出 找 扇 区 命令 后 再 一 次 断 开 ,直到 开始 数据 传 
送 。 因 此 ,数组 多 路 通道 的 实际 工作 方式 是 : 通道 在 为 一 台 高 速 设 备 传送 数据 时 ,有 多 台 
速 设备 可 以 在 定位 或 者 在 找 扇 区 。 


4. 通道 流量 分 析 


通道 流量 是 指 一 个 通道 在 数据 传送 期 间 ,单位 时 间 内 能 够 传送 的 数据 量 ,所 用 单位 一 般 
为 字 节 / 秒 。 通 道 流 量 也 称 为 通道 吞吐 率 ,通道 数据 传输 率 等 。 一 个 通道 在 满 负 荷 工作 状态 
下 的 流量 称 为 通道 最 大 流量 。 通 道 最 大 流量 主要 与 通道 的 种 类 通道 选择 设备 一 次 所 用 的 
时 间 以 及 传送 一 个 字 节 所 用 的 时 间 等 因素 有 关 。 

为 便于 讨论 ,下 面 给 出 一 些 后面 要 用 到 的 参数 的 定义 。 

(1) Ts: 设备 选择 时 间 。 从 通道 响应 设备 发 出 的 数据 传送 请 求 开始 ,到 通道 实际 为 这 
台 设 备 传送 数据 所 需要 的 时 间 。 

(2) To: 传送 一 个 字 节 所 用 的 时 间 。 

(3) p: 在 一 个 通道 上 连接 的 设备 台数 , 且 这 些 设备 同时 都 在 工作 。 

(4) n: 每 台 设 备 传送 的 字 节 数 , 这 里 假设 每 台 设备 传送 的 字 节 数 都 相同 。 

(5) &: 数组 多 路 通道 传输 的 一 个 数据 块 中 包含 的 字 节 数 。 在 一 般 情 况 下 ,k 二 n。 对 于 
人 磁盘、 磁带 等 磁 表 面 存储 器 ,通常 k= 二 512。 

(6) T: 通道 完成 全 部 数据 传送 工作 所 需要 的 时 间 。 

1) 字 节 多 路 通道 

字 节 多 路 通道 是 分 时 为 多 台 低 速 和 中 速 外 设 服务 的 。 通 道 每 连接 一 台 外 设 , 只 传送 一 
个 字 节 ,然后 又 选择 与 男 一 台 设 备 连接 ,并 传送 一 个 字 节 ,如 此 反复 。p 台 设 备 每 台 传送 
个 数据 总 共 所 需 的 时 间 为 : 

Teyre 一 (Ts 十 Top) Xpxn 《8 区 
其 最 大 流量 为 


f MAX-BYTE Pn 
(Ts+ To)pn 了 Ts 十 Jo 


根据 字 节 多 路 通道 的 工作 原理 可 知 , 它 的 实际 流量 是 连接 在 这 个 通道 上 的 所 有 设备 的 
数据 传输 率 之 和 , 即 





(8.3) 





p 
Javre = 2 (8.4) 
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其 中 ,f; 为 第 i 台 设 备 的 实际 数据 传输 率 。 下 同 。 

2) 选择 通道 

选择 通道 在 一 段 时间 内 只 能 单独 为 一 台 高 速 外 设 服务 , 当 这 台 设 备 的 数据 传送 工作 全 
部 完成 后 ,通道 才能 为 另 一 台 设 备 服务 。 选 择 通道 实际 上 是 逐个 为 物理 上 连接 的 几 台 高 速 
外 设 服务 的 。 

Zp 台 设 备 每 台 传送 个 数据 总 共 所 需 的 时 间 为 : 











Tsgrecr = pTs+ pnTp 《8. 5) 
其 最 大 流量 为 
证 pn 1 
TaxsELECT pTs + mTs Te (8.6) 
千 Tp 
3) 数组 多 路 通道 


通道 每 连接 一 台 高 速 设备 ,传送 一 个 数据 块 ( 设 为 个 字 节 ), 传 送 完 成 后 ,又 与 男 一 台 
高 速 设备 连接 ,再 传送 一 个 数据 块 ……p 台 设 备 每 台 传送 个 数据 总 共 所 需 的 时 间 为 : 


Took = A STs (8.7) 





其 最 大 流量 为 





1 三 志和 (8.8) 
es 5 jms 于 + To 
对 于 选择 通道 和 数组 多 路 通道 ,在 一 段 时 间 内 ,一 个 通道 只 能 为 一 台 设 备 传送 数据 。 此 
时 通道 的 实际 流量 就 等 于 该 设备 的 数据 传输 率 。 因 此 ,这 两 种 通道 的 实际 流量 就 是 连接 在 
这 个 通道 上 的 所 有 设备 中 数据 流量 最 大 的 那 一 个 。 


p 
feock < maxf' i 





2 (8.9) 
fseLect < maxfi i 
为 了 保证 通道 能 够 正常 工作 而 不 丢失 数据 ,各 种 通道 的 实际 流量 应 该 不 大 于 通道 的 最 
大 流量 , 即 应 该 满足 下 列 不 等 式 : 
favre 之 fuAxByrE 
farock SS faaxBLock (8.10) 
fsetEct < fuaxseLEcT 
两 边 的 差 值 越 小 ,通道 的 利用 率 就 越 高 。 当 两 边 相 等 时 ,通道 处 于 满 负荷 工作 状态 。 为 
防止 数据 丢失 ,在 实际 设计 通道 的 最 大 流量 时 ,还 应 留 有 一 定 的 余 量 。 


8.2.6 1/0 与 操作 系统 


1. DMA 和 虚拟 存储 器 


在 具有 虚拟 存储 器 的 计算 机 中 ,存在 DMA 是 使 用 虚拟 地 址 还 是 物理 地 址 来 传输 数据 
的 问题 。 如 果 使 用 物理 地 址 进行 DMA 传输 ,存在 以 下 两 个 问题 。 
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(1) 当 数 据 缓冲 区 大 小 超过 一 页 时 ,由 于 缓冲 区 所 使 用 的 多 个 页 面 在 物理 存储 器 中 不 
一 定 是 连续 的 ,所 以 传输 可 能 会 出 现 问题 。 

(2) 如 果 DMA 正在 存储 器 和 缓冲 区 之 间 传 输 数据 时 ,操作 系统 从 存储 器 中 移出 (或 重 
定位 ) 一 些 页 面 ,那么 ,DMA 将 会 在 存储 器 中 错误 的 物理 页 面 上 进行 数据 传输 。 

解决 这 些 问题 的 一 种 方法 是 使 操作 系统 在 1/O 的 传输 过 程 中 确保 DMA 设备 所 访问 的 
页 面 都 位 于 物理 存储 器 中 ,这 些 页 面 被 称 为 是 钉 (pinned) 在 了 主 存 中 。 

另 一 种 方法 是 采用 “虚拟 DMA” 技 术 , 它 允许 DMA 设备 直接 使 用 虚拟 地 址 ,并 在 DMA 
传送 的 过 程 中 由 硬件 将 虚拟 地 址 转换 为 物理 地 址 。 这 样 ,I/O 使 用 的 缓冲 区 在 虚拟 地 址 空 
间 中 是 连续 的 ,但 在 物理 存储 器 中 是 可 以 分 散 存 放 的 。 

在 采用 虚拟 DMA 的 情况 下 ,如 果 进 程 在 内 存 中 被 移动 ,操作 系统 应 该 能 够 及 时 地 修改 
相应 的 DMA 地 址 表 。 


2. 1/O 和 Cache 数据 一 致 性 


对 主 存 的 直接 1/O 操作 可 能 会 导致 Cache 内 容 与 主 存 内 容 不 一 致 的 问题 。 如 果 把 IO 
直接 连接 到 Cache 上 , 则 不 会 产生 由 1/O 导致 的 数据 不 一 致 的 问题 。 在 这 种 情况 下 ,所 有 
W/O 设备 和 CPU 都 能 在 Cache 中 看 到 最 新 的 数据 。 但 这 种 方法 会 造成 对 CPU 的 较 多 的 打 
扰 。 因 此 ,许多 计算 机 还 是 选择 把 1/O 直接 连接 到 存储 器 上 ,把 存储 器 的 一 片区 域 作 为 /O 
缓冲 器 ,并 设法 解决 数据 不 一 致 的 问题 。 

可 以 通过 以 下 方法 来 解决 内 容 的 一 致 性 问题 。 

1) 软件 的 方法 

设法 保证 IO 缓冲 器 中 的 所 有 各 块 都 不 在 Cache 中 。 具 体 做 法 有 两 种 ,一 种 是 把 IO 
缓冲 器 的 页 面 设置 为 不 可 进入 Cache 的 ,在 进行 输入 操作 时 ,操作 系统 总 是 把 输入 的 数据 放 
到 该 页 面 。 另 一 种 方法 是 在 进行 输入 操作 之 前 ,操作 系统 先 把 Cache 中 与 /O 缓冲 器 相关 
的 数据 * 赶 出 ”Cache, 即 把 相应 的 数据 块 设置 为 “无 效 ” 状 态 。 当 然 , 如 果 是 采用 写 回 法 的 
Cache, 而 且 该 数据 块 被 修改 过 ,就 还 需要 把 整 块 的 内 容 写 回 存 储 器 。 

2) 硬件 的 方法 

硬件 的 方法 是 在 进行 输入 操作 时 ,检查 相应 的 I/O 地 址 (1/O 缓冲 器 中 的 单元 ) 是 否 在 
Cache 中 。 这 是 通过 把 这 些 1/O 地 址 与 Cache 中 的 标识 进行 比较 来 判断 的 。 为 了 使 这 些 比 
较 能 与 CPU 对 Cache 的 访问 并 行进 行 ,可 以 多 设置 一 套 完全 相同 的 标识 存储 器 。 如 果 发 现 
1/O 地 址 在 Cache 中 有 匹配 的 ,就 把 相应 的 Cache 块 设置 为 无效”。 


习 题 
1. 概念 题 
【 题 8.1】 解释 以 下 名 词 
响应 时 间 可 靠 性 可 用 性 可 信 性 
RAID 分 离 事务 总 线 通道 通道 流量 


虚拟 DMA 
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2. 选择 题 

【 题 8. 2〗 输入 输出 数据 不 经 过 CPU 内 部 寄存 器 的 输入 输出 方式 是 ( a 
A. 程序 控制 输入 输出 方式 B. 中 断 输 入 输出 方式 

C. 直接 存储 器 访问 方式 D. 上 述 3 种 方式 


【是 8. 3】 在 配置 有 通道 的 计算 机 系统 中 ,用 户 程 序 需要 输入 输出 时 ,引起 的 中 断 是 
( Ys 

A. 访 管 中 断 B. WO 中 断 C. 程序 性 中 断 D. 外 部 中 断 

【是 8.4】 当 计 算 机 系统 通过 执行 通道 程序 完成 输入 输出 工作 时 ,执行 通道 程序 的 是 
( )。 

















A. CPU B. 通道 C. CPU 和 通道 D. 指定 的 外 设 

【 题 8. 5〗 磁盘 存储 器 适合 于 连接 到 ( De 

A. 字 节 多 路 通道 或 选择 通道 B. 字 节 多 路 通道 或 数组 多 路 通道 

C. 选择 通道 或 数组 多 路 通道 D. 任意 一 种 通道 

【 题 8.6】 在 由 多 个 通道 组 成 的 IO 系统 中 ,1/O 系统 的 最 大 流量 是 ( ji 

A. 各 通道 最 大 流量 的 最 大 值 B. 各 通道 最 大 流量 之 和 

C. 各 通道 实际 流量 的 最 大 值 D. 各 通道 实际 流量 之 和 

3. 填空 题 

【 题 8.7】 输入 /输出 系统 包括 和 EF 

【 题 8. 8〗 评价 1/O 系统 性 能 的 参 主要 有 5 8 和 

【 题 8.9】 MTTR 是 指 ,MTTF 是 指 2 

【 题 8. 10〗 磁盘 阵列 中 ,数据 交叉 存放 的 粒度 有 和 之 分 。 前 者 是 在 
概念 上 把 数据 分 割 成 相对 的 单位 交叉 存放 ,而 后 者 是 把 数据 以 相对 的 单 
位 交叉 存放 。 

【 题 8.11】 实现 盘 阵列 的 方式 主要 有 | 和 三 种 。 

【 题 8.12】 按 用 途 分 类 ,总 线 可 分 为 总 线 和 总 线 。 

【 题 8.13】 按 设 备 定时 方式 分 类 ,总 线 可 分 为 和 





【站 8.14】 1/O 总 线 的 物理 连接 方式 有 两 种 选择 ,一 种 是 连接 到 上 , 男 一 种 
是 连接 到 上 。 
【 题 8.15】 通过 通道 完成 一 次 输入 输出 工作 ,CPU 需要 两 次 调用 操作 系统 的 管理 程 











序 , 第 一 次 调用 是 为 了 ,第 二 次 调用 是 为 了 5 
【 题 8.16】 通道 的 主要 硬件 包括 和 两 部 分 。 
【 题 8.17】 通道 分 为 、 和 3 种 类 型 。 
【十 8. 18〗 字 节 多 路 通道 实际 流量 是 ; 数组 多 路 通道 的 实际 流量 
是 E 
【 题 8.19】 在 通道 方式 1/O 传输 过 程 中 ,用 户 经 由 指令 来 使 用 外 设 。 进 管 后 
要 编制 。CPU 在 执行 完 指令 后 ,通道 就 可 以 与 其 并 行 工作 。 





【 题 8.20】 若 Ts 是 通道 的 设备 选择 时 间 , To 是 通道 传送 一 个 字 节 数据 所 需 的 时 间 ,p 
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为 通道 连接 的 设备 台数 , 且 这 些 设备 同时 都 在 工作 。n 为 每 台 外 设 需要 传送 的 字 节 数 。 开 
为 数组 多 路 通道 传输 的 一 个 数据 块 中 包含 的 字 节 数 。 那 么 , 字 节 多 路 通道 完成 数据 传送 的 
时 间 Ty 二 ,选择 通道 完成 数据 传送 的 时 间 Te 一 ,数组 多 路 通道 完成 

数据 传送 的 时 间 Tu 一 。 
【 题 8. 21】 为 保证 通道 能 够 正常 工作 ,通道 的 流量 应 该 大 于 或 等 于 通道 的 
流量 。 


4. 问答 题 


【 题 8. 
【 题 8. 
【 题 8. 
【 题 8. 
【 题 8. 
【 题 8. 
【 题 8. 
【 题 8. 
【 题 8. 3 
? 如 何 克 服 ? 


痢 


22】 
23】 
24】 


5. 应 用 题 


【是 8. 


31】 


简 述 提高 系统 组 成 部 件 的 可 靠 性 的 两 种 方法 。 

RAID 有 哪些 分 级 ? 各 有 何 特点 ? 

大 多 数 磁 盘 阵 列 的 组 成 可 以 用 哪 两 个 特征 来 区 分 ? 

同步 总 线 和 异步 总 线 各 有 什么 优 缺 点 ? 

简 述 通道 的 主要 功能 。 

简 述 通道 完成 一 次 数据 传输 的 主要 过 程 。 

通道 分 为 哪 3 种 类 型 ? 它们 分 别 为 哪 种 外 围 设备 服务 ? 

简 述 字 节 多 路 通道 .数组 多 路 通道 和 选择 通道 的 数据 传送 方式 。 

在 有 Cache 的 计算 机 系统 中 ,进行 1/O 操作 时 ,会 产生 哪些 数据 不 一 致 问 


计算 机 系统 字 长 32 位 ,包含 两 个 选择 通道 和 一 个 多 路 通道 ,每 个 选择 通道 


上 连接 了 两 台 磁 盘 机 和 两 台 磁 带 机 ,多 路 通道 上 连接 了 两 台 行 式 打印 机 ,两 台 读 卡 机 ,10 台 
终端 ,假定 各 设备 的 传输 率 如 下 。 

磁盘 机 : 800KB/s 

磁带 机 : 200KB/s 

行 打 机 : 6. 6KB/s 

读 卡 机 : 1. 2KB/s 

终端 : 1KB/s 

计算 该 计算 机 系统 的 最 大 1/O 数据 传输 率 。 


【 题 8. 


32】 


设 某 个 数组 多 路 通道 设备 选择 时 间 Ts 为 lws, 传 送 一 个 字 节 数 据 所 需 的 时 


间 To 为 lws, 一 次 传送 定 长 数据 块 的 大 小 上 为 512B。 现 有 8 台 外 设 的 数据 传输 速率 分 别 如 
表 8. 3 所 示 , 问 哪些 外 设 可 连接 到 该 通道 上 正常 工作 ? 


表 8.3 8 台 外 设 的 数据 传输 速率 





设备 名 称 D, D。 D; D, D; Ds D; D; 
数据 传输 速率 1000 480 480 800 512 512 1024 1024 
【 题 8. 33〗 有 8 台 外 设 的 数据 传输 速率 分 别 如 表 8.4 所 示 , 现 设计 一 种 通道 ,通道 可 


实现 设备 选择 时 间 Ts 二 2ps, 数 据 传送 时 间 To 二 2ps。 
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(1) 如 果 按 字 节 多 路 通道 设计 ,该 通道 的 最 大 流量 是 多 少 ? 若 希 望 从 8 台 外 设 中 至 少 
选择 4 台 外 设 同 时 连接 到 该 通道 上 ,而 且 尽 量 多 连接 传输 速率 高 的 设备 ,那么 ,应 选择 哪些 
外 设 连接 到 该 通道 上 ? 

(2) 如 果 按 数组 多 路 通道 设计 , 且 一 次 传送 定 长 数据 块 的 大 小 &= 512B, 该 通道 的 最 大 
流量 是 多 少 ? 从 8 台 外 设 中 可 选择 哪些 外 设 连接 到 该 通道 上 ? 

表 8.4 外 设 的 数据 传输 速率 
设 备 号 1 3 4 5 6 7 8 
数据 传输 速率 500 240 100 75 50 40 14 10 





【 题 8. 34】 设 某 个 字 节 多 路 通道 的 设备 选择 时 间 Ts 为 9. 8us ,传送 一 个 字 节 的 数据 所 
需 的 时 间 To 为 0.2ps。 若 某 种 低速 外 设 每 隔 500ps 发 出 一 次 传送 请 求 ,那么 ,该 通道 最 多 
可 连接 多 少 台 这 种 外 设 ? 

【 题 8.35】 一 个 字 节 多 路 通道 连接 有 6 台 设备 ,它们 的 数据 传输 率 如 表 8. 5 所 示 。 





表 8.5 数据 传输 率 
设备 名 称 D， D; D; D, D; Ds 
数据 传输 速率 /(B/ms) 50 50 40 25 25 10 


(1) 计算 该 通道 的 实际 工作 流量 。 

(2) 若 通道 的 最 大 流量 等 于 实际 工作 流量 , 求 通道 的 工作 周期 Ts 十 To。 

【 题 8. 36〗 通道 型 /O 系统 由 一 个 字 节 多 路 通道 A \ 两 个 数组 多 路 通道 Bl 和 B2 以 及 
一 个 选择 通道 C 组 成 。 其 中 ,通道 A 连接 两 个 子 通道 Al 和 A2,Al 和 A2 分 别 连接 8 台 低 
速 外 设 ,B1、B2 和 C 分 别 连接 5 台 高 速 外 设 。 各 外 设 的 数据 传输 速率 如 表 8.6 所 示 。 

(1) 分 别 计算 通道 A、B1、B2 和 C 的 最 大 流量 至 少 为 多 大 才 不 会 丢失 传送 的 数据 ? 

(2) 车 1/O 系统 的 流量 为 主 存 带 宽 的 1/2, 则 主 存 带宽 应 达到 多 大 ? 


表 8.6 各 外 设 的 数据 传输 速率 


























通 道 通道 连接 的 各 外 设 的 数据 传输 速率 
字 节 多 路 子 通道 Al 64 56 56 20 20 20 10 10 
通道 A 子 通 道 A2 56 30 30 30 30 30 30 20 
数组 多 路 通道 Bl 512 512 512 256 256 
数组 多 路 通道 B2 256 256 512 256 512 
选择 通道 C 1024 512 512 515 512 




















【 题 8. 37】 假设 在 一 个 计算 机 系统 中 : 

(1) 每 页 为 32KB,Cache 块 大 小 为 128B。 

(2) 对 应 新 页 的 地 址 不 在 Cache 中 ,CPU 不 访问 新 页 中 的 任何 数据 。 
(3) Cache 中 95% 的 被 替换 块 将 再 次 被 读 取 ,并 引起 一 次 不 命中 。 
(4) Cache 使 用 写 回 方法 ,平均 60% 的 块 被 修改 过 。 

(5) I/O 系统 缓冲 能 够 存储 一 个 完整 的 Cache 块 。 
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(6) 访问 或 不 命中 在 所 有 Cache 块 中 均匀 分 布 。 

(7) 在 CPU 和 IO 之 间 , 没 有 其 他 访问 Cache 的 干扰 。 

(8) 无 /O 时 ,每 100 万 个 时 钟 周期 内 有 18 000 次 不 命中 。 

(9) 不 命中 开销 是 40 个 时 钟 周期 。 如 果 被 蔡 换 的 块 被 修改 过 , 则 再 加 上 30 个 周期 用 
于 写 回 主 存 。 

(10) 假设 计算 机 平均 每 200 万 个 周期 处 理 一 页 。 

试 分 析 I/O 对 于 性 能 的 影响 有 多 大 。 


lL 


题 解 


概念 题 


【 题 8.1】 解释 以 下 名 词 
响应 时 间 一 一 从 用 户 输入 命令 开始 ,到 得 到 结果 所 花 的 时 间 。 


可 


[ 靠 性 一 一 指 系 统 从 某 个 初始 参考 点 开始 一 直 连 续 提供 服务 的 能 力 , 它 通常 用 平均 无 


故障 时 间 来 衡量 。 


口 


口 


可 用 性 一 一 指 系统 正常 工作 的 时 间 在 连续 两 次 正常 服务 间隔 时 间 中 所 占 的 比率 。 
可 信 性 一 一 指 服务 的 质量 , 即 在 多 大 程度 上 可 以 合理 地 认为 服务 是 可 靠 的 。 





RAID 一 一 廉价 磁盘 元 余 阵 列 或 独立 磁盘 元 余 阵 列 。 

分 离 事务 总 线 一 一 将 总 线 事务 分 成 请 求 和 应 答 两 部 分 。 在 请 求 和 应 答 之 间 的 空闲 时 间 
内 ,总线 可 以 供给 其 他 的 I/O 使 用 。 采 用 这 种 技术 的 总 线 称 为 分 离 事 务 总 线 。 

通道 一 一 专门 负责 整个 计算 机 系统 输入 /输出 工作 的 专用 处 理 机 ,能 执行 有 限 的 一 组 输 
入 输出 指令 。 

通道 流量 一 一 指 一 个 通道 在 数据 传送 期 间 ,单位 时 间 内 能 够 传送 的 数据 量 。 

虚拟 DMA 一 一 它 允 许 DMA 设备 直接 使 用 虚拟 地 址 ,并 在 DMA 传送 的 过 程 中 由 硬件 


将 虚拟 地 址 转换 为 物理 地 址 。 
2. 选择 题 
【 题 8.2】 答 :C 
【是 8.3】 答 : A 
【 题 8.4】 答 : B 
【 题 8.5】 答 : C 
【 题 8.6】 答 : B 
3. 填空 题 
【 题 8.7〗 答 : MO 设备 .UVO 设备 与 处 理 机 的 连接 
【 题 8. 8〗 答 : 连接 特性 .1/O 系统 的 容量 、 响 应 时 间 吞吐 率 
【 题 8.9】 答 : 平均 修复 时 间 , 平 均 无 故障 时 间 


192 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





【 题 8. 10〗 答 : 细 粒 度 、 粗 粒度 、 较 小 、 较 大 

【 题 8.11】 答 : 软件 方式 、 阵 列 卡 方式 、 子 系统 方式 

【是 8.12】 答 : CPU- 存 储 器 1/O 

【 题 8.13】〗 答 : 同步 总 线 、 异 步 总 线 

【 题 8.14】 答 : 存储 器 、Cache 

【是 8.15】〗 答 : 编制 通道 程序 、 进 行 正常 结束 的 登记 等 工作 或 进行 异常 处 理 

【 题 8.16】 答 : 寄存 器 部 分 、 控 制 部 分 

【 题 8.17】 答 : 字 节 多 路 通道 、 选 择 通 道 数组 多 路 通道 

【 题 8. 18〗 答 : 连接 在 这 个 通道 上 的 所 有 设备 的 数据 传输 率 之 和 、 连 接 在 这 个 通道 


的 所 有 设备 中 数据 流量 最 大 的 那 一 个 
【 题 8.19】 答 : 访 管 ,管理 程序 .通道 程序 .启动 IO 
十 


【 题 8.20】〗 答 : (Ts 十 To)pn、 (至 Ts jon (E+ Ts jon 
【 题 8.21】 答 : 最 大 、 实 际 
4. 问答 题 


【 题 8. 22〗 答 : 提高 系统 组 成 部 件 的 可 靠 性 的 方法 : 有 效 构建 方法 、 纠 错 方法 。 

aq bop pet pit 这 样 建立 起 来 的 系统 就 不 会 出 现 
故障 。 

纠 错 方法 是 指 在 系统 构建 中 采用 容错 的 方法 。 这 样 即使 出 现 故 障 ,也 可 以 通过 容错 信 
息 保 证 系统 正常 工作 。 

【 题 8.23】 答 : DRAID0。 也 称 数据 分 块 , 即 把 数据 分 布 在 多 个 盘 上 ,实际 上 是 非 元 余 
阵列 ,无 元 余 信息 。@RAID1。 也 称 镜像 盘 , 使 用 双 备 份 磁盘 。 每 当 数 据 写 人 一 个 磁盘 时 ， 
将 该 数据 也 写 到 另 一 个 元 余 盘 ,这 样 形成 信息 的 两 份 复制 品 。 如 果 一 个 磁盘 失效 ,系统 可 以 
到 镜像 盘 中 获得 所 需要 的 信息 。 镜 像 是 最 昂贵 的 解决 方法 。 特 点 是 系统 可 靠 性 很 高 ,但 效 
率 很 低 。@QRAID2。 位 交叉 式 海 明 编 码 阵列 。 原 理 上 比较 优越 ,但 元 余 信 息 的 开销 太 大 ， 
因此 未 被 广泛 应 用 。@RAID3。 位 交叉 奇偶 校 验 盘 阵列 ,是 单 盘 容 错 并 行 传输 的 阵列 。 旧 
数据 以 位 或 字 节 交叉 的 方式 存 于 各 盘 , 宛 余 的 奇偶 校 验 信息 存储 在 一 台 专 用 盘 上 。 
@RAID4。 专 用 奇偶 校 验 独 立 存 取 盘 阵列 。 即 数据 以 块 ( 块 大 小 可 变 ) 交 叉 的 方式 存 于 各 
盘 , 宛 余 的 奇偶 校 验 信息 存在 一 台 专 用 盘 上 。@RAID5。 块 交叉 分 布 式 奇偶 校 验 盘 阵 列 ， 
是 旋转 奇偶 校 验 独立 存 取 的 阵列 。 即 数据 以 块 交 叉 的 方式 存 于 各 盘 , 但 无 专用 的 校 验 盘 ,而 
是 把 元 余 的 奇偶 校 验 信息 均匀 地 分 布 在 所 有 磁盘 上 。C@RAID6。 双 维 奇偶 校 验 独立 存 取 
盘 阵 列 。 即 数据 以 块 ( 块 大 小 可 变 ) 交 叉 的 方式 存 于 各 盘 ,元 余 的 检 、 纠 错 信息 均匀 地 分 布 在 
所 有 磁盘 上 。 并 且 ,每 次 写 入 数据 都 要 访问 一 个 数据 盘 和 两 个 校 验 盘 , 可 容忍 双 盘 出 错 。 

【 题 8.24】 答 : 

(1) 数据 交叉 存放 的 粒度 

(2) 宛 余数 据 的 计算 方法 以 及 在 磁盘 阵列 中 的 存放 方式 。 

【 题 8.25】 答 : 四 同步 总 线 。 同 步 总 线 上 所 有 设备 通过 统一 的 总 线 系统 时 钟 进 行 同 
步 。 同 步 总 线 成 本 低 ,因为 它 不 需要 设备 之 间 互 相 确定 时 序 的 逻辑 。 但 是 同步 总 线 也 有 缺 
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点 ,总 线 操作 必须 以 相同 的 速度 运行 。@ 异 步 总 线 。 异 步 总 线 上 的 设备 之 间 没 有 统一 的 系 
统 时 钟 ,设备 自己 内 部 定时 。 设 备 之 间 的 信息 传送 用 总 线 发 送 器 和 接收 器 控制 。 异 步 总 线 
容易 适应 更 广泛 的 设备 类 型 ,扩充 总 线 时 不 用 担心 时 钟 时 序 和 时 钟 同步 问题 。 但 在 传输 时 ， 
异步 总 线 需要 额外 的 同步 开销 。 

【 题 8.26】 答 : 接收 CPU 发 来 的 1/O 指令 ,根据 指令 要 求 选择 一 台 指 定 的 外 围 设 
备 与 通道 相连 接 。@ 执 行 CPU 为 通道 组 织 的 通道 程序 ,从 主 存 中 取出 通道 指令 ,对 通道 指 
令 进 行 译 码 ,并 根据 需要 向 被 选中 的 设备 控制 器 发 出 各 种 操作 命令 。 轩 给 出 外 围 设备 的 有 
关 地 址 , 即 进行 读 / 写 操作 的 数据 所 在 的 位 置 。@ 给 出 主 存 缓冲 区 的 首 地 址 ,这 个 缓冲 区 用 
来 暂时 存放 从 外 围 设备 上 输入 的 数据 ,或 者 暂时 存放 将 要 输出 到 外 围 设备 的 数据 。@ 控 制 
外 围 设备 与 主 存 缓冲 区 之 间 数 据 交换 的 个 数 , 对 交换 的 数据 个 数 进行 计数 ,并 判断 数据 传送 
工作 是 否 结束 。@@ 指 定 传送 工作 结束 时 要 进行 的 操作 。 外 检查 外 围 设备 的 工作 状态 是 正常 
或 故障 。 根 据 需 要 将 设备 的 状态 信息 送 往 主 存 指定 单元 保存 。@ 在 数据 传输 过 程 中 完成 必 
要 的 格式 变换 。 

【 题 8.27】 答 : 中 在 用 户 程序 中 使 用 访 管 指令 进入 管理 程序 ,由 CPU 通过 管理 程序 组 
织 一 个 通道 程序 ,并 启动 通道 。@ 通 道 处 理 机 执行 CPU 为 它 组 织 的 通道 程序 ,完成 指定 的 
数据 W/O 工作 。 图 通道 程序 结束 后 向 CPU 发 中 断 请 求 。CPU 响应 这 个 中 断 请 求 后 ,第 二 
次 进入 操作 系统 ,调用 管理 程序 对 1/O 中 断 请 求 进行 处 理 。 

【 题 8. 28〗 答 : 字 节 多 路 通道 。 一 种 简单 的 共享 通道 ,主要 为 多 台 低 速 或 中 速 的 外 
围 设备 服务 。@ 数 组 多 路 通道 。 适 于 为 高 速 设备 服务 。 加 选择 通道 。 为 高 速 外 围 设备 (如 
磁盘 存储 器 等 ) 服 务 的 。 

【 题 8.29】 答 : 字 节 通道 每 连接 一 台 外 设 , 只 传送 一 个 字 节 ,然后 又 选择 与 男 一 台 设 备 
连接 ,并 传送 一 个 字 节 ,如 此 反复 。 以 分 时 方式 轮流 为 多 台 低 速 外 设 服 务 。 

选择 通道 在 一 段 时 间 内 只 能 单独 为 一 台 高 速 外 设 服务 , 当 这 台 设 备 的 数据 传送 工作 全 
部 完成 后 ,通道 才能 为 另 一 台 设 备 服务 。 选 择 通道 实际 上 是 逐个 为 物理 上 连接 的 几 台 高 速 
外 设 服务 的 。 

数组 多 路 通道 每 连接 一 台 高 速 设备 后 ,就 连续 传送 一 个 个 字 节 的 数据 块 ,传送 完成 
后 ,又 与 男 一 台 高 速 设备 连接 ,同样 连续 传送 一 个 个 字 节 的 数据 块 。 

【 题 8. 30】 答 : (1) 存 储 器 中 可 能 不 是 CPU 产生 的 最 新 数据 ,所 以 I/O 系统 从 存储 器 
中 取出 来 的 是 陈旧 数据 。 

(2) 1/O 系统 与 存储 器 交换 数据 之 后 ,在 Cache 中 ,被 CPU 使 用 的 可 能 就 会 是 陈旧 
数据 。 

第 一 个 问题 可 以 用 写 直 达 Cache 解决 。 

对 于 第 二 个 问题 ,操作 系统 可 以 保证 1/O 操作 的 数据 不 在 Cache 中 。 如 果 不 能 保证 ， 
就 作废 Cache 中 相应 的 数据 。 


5. 应 用 题 





【是 8. 31】 
解 : 本 题 要求 计 算 通 道 的 吞吐 率 ,而 且 机 器 有 一 个 多 路 通道 ,这 就 有 两 种 可 能 : 字 节 多 
路 通道 和 数组 多 路 通道 。 因 为 如 果 将 多 路 通道 组 织 成 数组 多 路 通道 , 某 个 时 刻 通道 只 能 为 
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一 台 设 备 传送 数据 ,所 以 它 的 传输 率 是 所 有 设备 的 传输 率 的 最 大 值 ,而 如 果 将 它 组 织 成 字 节 
多 路 通道 ,该 通道 的 最 大 传输 率 就 是 所 有 设备 的 传输 率 之 和 。 

所 以 在 本 题 中 ,从 性 能 上 考虑 ,应 组 织 成 字 节 多 路 通道 形式 。 

所 以 此 类 通道 的 最 大 传输 率 为 : 

(1) feyre 二 >) fi 一 fi 人 入 素 XX 2 十 了 访 卡 机 舍 纺 素 X 2 十 f 委 坑 人 下 X 10 一 25. 6KB/s 
Gi=1~14) 

(2) 两 个 选择 通道 连接 的 设备 相同 ,所 以 只 要 计算 其 中 一 个 通道 的 传输 率 既 可 。 因 为 
磁盘 机 的 传输 率 大 于 磁带 机 。 所 以 此 类 通道 的 传输 率 为 : 

max{800,200} 王 800KB/s 

所 以 本 系统 的 最 大 数据 传输 率 为 : 和 和 一 2X800 十 25. 6 一 1625. 6KB/s。 

【 题 8. 32】 

解 : 数组 多 路 通道 的 最 大 流量 为 : 

1 k 512  _ 512 





(B/ps) < 1000KB/s 


i Ts 十 人 Tb 1+512X1 513 
连接 到 通道 上 的 外 设 能 够 正常 工作 的 条 件 是 该 外 设 的 数据 传输 速率 fi 满足: 
fi < fr 
因此 ,可 以 连接 到 通道 上 正常 工作 的 外 设 为 : D; 、D; 、D, 、D; .De 。 
【 题 8. 33】 
解 : (1) 如 果 按 字 节 多 路 通道 设计 ,该 通道 的 最 大 流量 为 ; 
usae 一 = 250KB/s 


p 
连接 到 字 节 多 路 通道 上 的 p 台 设 备 能 正常 工作 的 条 件 是 : fwwwiwe 之 2 
应 选择 外 设 3.4、5、7 和 8 同时 连接 到 通道 上 ,因为 


5 
2D)fi =100+75 十 50 十 14 十 10 = 249KB/s 一 250KB/s 
i 一 1 


《2 如 果 按 字 节 多 路 通道 设计 ,该 通道 的 最 大 流量 为 ， 


f k 512 
mo Ts 十 ATb 2 十 512X2 


连接 到 数组 多 路 通道 上 的 设备 能 正常 工作 的 条 件 是 : 六 -aou 之 广 
因此 ,除外 设 1 外 ,其 他 外 设 都 可 以 同时 连接 到 通道 上 。 
【 题 8. 34】 


解 : 字 节 多 路 通道 的 最 大 流量 为 : 一 











0.499B/ps = 499KB/s 


1 
Ts 十 Tn 
4 
字 节 多 路 通道 的 实际 流量 为 : fu = 2 


其 中 ,zp 为 通道 连接 的 外 设 台数 ,f; 为 外 设 i 的 数据 传输 速率 。 因 为 连接 的 是 同样 的 外 
设 ,所 以 fi 三 大 二 “二 f= 二 了 ; 故 有 Fun = ps 
通道 流量 匹配 的 要 求 有 : fwoxbyee 写 ftyee 
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和 有 了 
有 : 二 一 一 -全 ; 可 得 : 一 
Ds To 可 得 : PST TTF 


已 知 Ts 二 9. 8ps, Tp 二 0.2ps,1/f= 二 500ps, 可 求 出 通道 最 多 可 连接 的 设备 台数 为 : 
1 500ps 
(Ts+To)f (9.8+0.2)ns 








p< 
【是 8. 35】 
解 : (1) 通道 实际 流量 为 : 
-Df 一 50 十 50 十 40 十 25 十 25 十 10 = 200B/ms 
(2) 由 于 通道 和 有 大 这 和 实际 作 流 可 即 有 
Jf maxbre 一 ee = 200B/ms 


可 得 ,通道 的 工作 周期 Ts 十 Tp 二 5ps。 
【 题 8. 36】 
解 : (1) 字 节 多 路 子 通道 Al 和 A2 的 实际 流量 分 别 为 : 








8 
Ju = >)f; = 64 十 56 十 56 十 20 十 20 十 20 十 10 十 10 = 256KB/s 
i=]1 




















8 
fonens = >》)f; 二 56 十 30 十 30 十 30 十 30 十 30 十 30 十 20 = 256KB/s 
i=]1 


字 节 多 路 通道 A 的 实际 流量 为 : fowea 王 foyer 十 foweans 一 512KB/s 
数组 多 路 通道 Bl 和 B2 的 实际 流量 分 别 为 : 


5 
fiivikai 一 max{ fi:) = max{512,512,512,256,256} = 512KB/s 


fbiock-Bz 一 max{/,} 一 max{256,256,512,256,512} = 512KB/s 
选择 通道 C 的 实际 流量 为 : 
fonectc = max{ /. = max{1024,512,512,512,512} = 1024KB/s 
通道 的 最 大 流量 应 大 于 或 等 于 通道 实际 流量 ,通道 才能 正常 工作 ,因此 ,各 通道 的 最 大 
流量 应 为 : 
fmaxbnes 之 512KB/s 
fmaxblockB! 之 512KB/s 
faxtlockB2 之 512KB/s 
fimaxselecrc 之 1024KB/s 
(2) 1/O 系统 的 实际 流量 fo 为 各 通道 实际 流量 之 和 , 即 
fyo= forea tt fuiockeB + fbrBz + foctecrc = (512 十 512 十 512 十 1024)KB/s 
= 2560KB/s = 2.5MB/s 
若 1/O 系统 实际 流量 为 主 存 带 宽 的 1/2, 那 么 , 主 存 带宽 fu 应 达到 
fu = 2fvo = 5MB/s 
【 题 8. 37】 
解 : 每 个 主 存 页 有 32K/128 一 256 块 。 
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因为 是 按 块 传输 ,所 以 I/O 传输 本 身 并 不 引起 Cache 不 命中 。 但 是 它 可 能 要 替换 
Cache 中 的 有 效 块 。 如 果 这 些 被 替换 块 中 有 60% 是 被 修改 过 的 ,将 需要 (256X60%)X30= 
4608 个 时 钟 周期 将 这 些 被 修改 过 的 块 写 回 主 存 。 

这 些 被 替换 出 去 的 块 中 ,有 95% 的 后 继 需要 访问 ,从 而 产生 95% X256 二 244 次 不 命 
中 ,将 再 次 发 生 替 换 。 由 于 这 次 被 替换 的 244 块 中 数据 是 从 1/O 直接 写 入 Cache 的 ,因此 所 
有 块 都 为 被 修改 块 ,需要 写 回 主 存 ( 因 为 CPU 不 会 直接 访问 从 1/O 来 的 新 页 中 的 数据 ,所 
以 它们 不 会 立即 从 主 存 中 调 入 Cache) ,需要 时 间 是 244X(40 十 30) 王 17 080 个 时 钟 周 期 。 

没有 1/O 时 ,每 一 页 平均 使 用 200 万 个 时 钟 周期 ,Cache 不 命中 36 000 次 ,其 中 60% 被 
修改 过 ,所 需 的 处 理 时 间 为 : 

(36 000X40%) X40 十 (36 000X60%)X (40 十 30) 二 2 088 000( 时 钟 周期 ) 
时 钟 /O 造成 的 额外 性 能 损失 比例 为 : 
(4608 十 17 080) 二 (2 000 000 十 2 088 000) 一 0.53 听 
即 大 约 产生 0.53% 的 性 能 损失 。 


9.1 基本 要 求 与 难点 


9.1.1 基本 要 求 


(1) 掌握 有 关 互 连 网 络 的 基本 概念 。 

(2) 掌握 几 种 常用 的 基本 互 连 函 数 及 其 主要 特点 。 

(3) 掌握 互连网 络 的 结构 参数 与 性 能 指标 。 

(4) 掌握 线性 阵列 、 环 等 9 种 静态 互连网 络 的 结构 及 特征 。 

(5) 理解 总 线 网 络 .交叉 开关 网 络 和 多 级 互连网 络 3 种 动态 互连网 络 , 掌 握 其 各 自 的 主 
要 特点 。 

(6) 深入 掌握 多 级 立方 体 网 络 和 Omega 网 络 。 

(7) 掌握 4 种 消息 寻 径 方式 : 线路 交换 ,存储 转发 ,虚拟 直通 和 虫 亿 方式 。 

(8) 了 解 流 控制 策略 。 

(9) 了 解 选 播 和 广播 寻 径 算法 。 


9.1.2 难点 


(1) 静态 互连网 络 的 结构 及 特征 。 
(2) 多 级 立方 体 网 络 和 Omega 网 络 。 
(3) 消息 寻 径 方式 。 


9.2 知识 要 点 


互连网 络 是 一 种 由 开关 元 件 按照 一 定 的 拓扑 结构 和 控制 方式 构成 的 网 络 , 用 来 实现 计 
算 机 系统 中 结 点 之 间 的 相互 连接 。 这 些 结 点 可 以 是 处 理 器 、 存 储 模 块 或 其 他 设备 。 在 拓扑 
上 ,互连网 络 是 输入 结 点 到 输出 结 点 之 间 的 一 组 互 连 或 映像 。 

互连网 络 有 三 大 要 素 : 互 连 结 构 , 开 关 元 件 ,控制 方式 。 各 种 互连网 络 主要 是 在 这 些 要 
素 方面 各 不 相同 。 
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9.2.1 互 连 函 数 


假设 互连网 络 有 N 个 输入 端 和 N 个 输出 端 ,分 别 用 0,1,…,N 一 1 来 表示 , 则 互 连 函 数 
表示 了 输入 端 号 和 输出 端 号 的 连接 关系 。 


1. 互 连 函数 的 表示 方法 


用 变量 z 表 示 输 入 ( 设 z=0,1,…,N 一 1) ,用 函数 f(x) 表示 输出 。 则 f(x) 表示 : 在 互 
连 函 数 f 的 作用 下 ,输入 端 z 连接 到 输出 端 f(z)。xz 和 了 (xz) 可 以 用 二 进 制 表示 ,也 可 以 用 
十 进 制 表示 。 

互 连 函 数 反 映 了 网 络 输入 端 数组 和 输出 端 数组 之 间 对 应 的 置换 关系 或 排列 关系 ,所 以 
互 连 函 数 有 时 也 称 为 置换 函数 或 排列 函数 。 

互 连 函 数 的 循环 表示 法 : (zo zi zz… 1) 

它 表 示 : F(zo) 一 ziyFCzi) 一 zz ys9 天 (二 71 一 2o 

7 称 为 该 循环 的 长 度 。 

2. 几 种 基本 的 互 连 函 数 


下 面 介绍 几 种 常用 的 基本 互 连 函 数 及 其 主要 特征 。 


1) 恒 等 函 数 

恒 等 函数 所 实现 的 互 连 : 同 号 输入 端 和 输出 端 之 间 的 连接 。 

其 函数 表达 式 为 : 

I(ze Tr TIT0) = TaiTn 2 和 TI1Z0 

2) 交换 函数 

交换 函数 所 实现 的 互 连 : 二 进 制 地 址 编码 中 第 & 位 互 反 的 输入 端 与 输出 端 之 间 的 连 
接 。 其 表达 式 为 : 

E(xeiTn ZHIZEELI TIT0) = THTn 2 Th ZTCI。Z170 


3) 均匀 洗 牌 函数 
均匀 洗 牌 函数 : 将 输入 端 分 成 数目 相等 的 两 半 , 前 一 半 和 后 一 半 按 类 似 均匀 混 洗 扑 克 
牌 的 方式 交叉 地 连接 到 输出 端 (输出 端 相 当 于 混 洗 的 结果 )。 其 函数 关系 可 表示 为 : 
CCZe 1Ze 2 TIZo) = 并 2To 3 ZIZ0OZ 1 
即 把 输入 端的 二 进 制 编号 循环 左 移 一 位 ,就 变 成 了 其 所 要 连接 的 输出 端的 编号 。 
对 于 有 些 互 连 函 数 ( 设 为 *) ,还 可 以 定义 其 第 大 个 子 函数 和 第 大 个 超 函 数 。 它 们 分 别 
是 把 ;作用 于 输入 端的 二 进 制 编号 的 低 & 位 和 高 k 位 。 
对 于 任意 一 种 函数 f(z) ,如 果 存 在 g(x) ,使 得 
f(x) XxX g(x) = I(zx) 
则 称 g(xz) 是 f(z) 的 道 函 数 , 记 为 "(zx)。 即 f(x) 二 g(x)。 
道 均 匀 洗 牌 是 均匀 洗 牌 的 逆 函 数 , 记 为 ao 。 它 所 实现 的 函数 是 : 
O(a Tee LIT0) = Lom dTn a Tl 


即 把 输入 端的 二 进 制 编号 循环 右 移 一 位 。 
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道 均匀 洗 牌 和 均匀 洗 牌 的 连接 图 互 为 镜像 。 均 匀 洗 牌 和 逆 均 匀 洗 牌 是 两 种 十 分 有 用 的 
互 连 函数 ,用 它们 和 交换 开关 多 级 组 合 起 来 可 构成 Omega 网 络 和 逆 Omega 网 络 。 

4) 碟 式 函数 

蝶 式 互 连 函数 定义 为 : 

BCz。，lze 2…ZIZo) = TT TT 

即 把 输入 端的 二 进 制 编号 的 最 高 位 与 最 低位 互 换 位 置 ,就 得 到 了 其 所 要 连接 的 输出 端的 
编号 。 

与 均匀 混 洗 函数 类 似 , 只 用 蝶 式 函数 不 能 实现 任意 结 点 之 间 的 连接 。 但 是 蝶 式 变换 与 
交换 变换 的 多 级 组 合 可 作为 构成 方 体 多 级 网 络 的 基础 。 

5) 反 位 序 函数 

反 位 序 函 数 的 定义 为 : 

Pmt TN) = Ro Lead 

即 把 输入 端 二 进 制 编号 的 各 位 的 次 序 颠 倒 过 来 , 便 得 到 了 其 所 连 输出 端的 编号 。 

6) 移 数 函数 

移 数 函 数 是 将 各 输入 端 都 错开 一 定 的 位 置 ( 模 N) 后 连 到 输出 端 。 其 函数 式 为 : 

a(z)= (x+tkmodN 1<zr<N-1,1<k<N-1 

还 可 以 将 整个 输入 数组 (把 输入 端 号 按 顺 序 排列 ) 分 成 若干 个 子 数组 ,然后 在 子 数组 的 
范围 内 进行 移 数 置换 。 

7) PM2I 函数 

PM21 函数 中 的 P 和 M 分 别 表示 加 (Plus) 和 减 (Minus) ,2I 表示 2', 所 以 该 函数 又 称 为 
“加 减 2” 函 数 。 这 是 一 种 特殊 的 移 数 函数 ,其 函数 式 为 : 

PM2;(zx) = (z+2)mod N 
PM2_;(x) = (x—2' mod N 

其 中 ,0 二 x 志 N 一 1,0 志 in 一 1,n 二 logs N,N 为 结 点 数 。 显 然 ,PM2I1 互连网 络 共 有 27 
个 互 连 函数 。 

PM21 函数 是 构成 数据 变换 网 络 的 基础 。 阵 列 计算 机 Illiac 人 采用 PM2;o。 和 PM24，。 
构成 其 互连网 络 ,实现 各 处 理 单元 之 间 的 上 下 左右 互 连 。 


9.2.2 互连网 络 的 结构 参数 与 性 能 指标 


1. 互连网 络 的 结构 参数 


互连网 络 通常 是 用 有 向 边 或 无 向 边 连接 有 限 个 结 点 的 图 来 表示 。 其 主要 结构 参数 包含 
以 下 6 个 。 

(1) 网 络 规模 N。 网 络 规模 是 指 互连网 络 中 结 点 的 个 数 。 它 表示 该 网 络 所 能 连接 的 部 
件 的 数量 。 网 络 规模 越 大 , 则 这 个 互连网 络 的 连接 能 力 越 强 ,能 连接 更 多 的 部 件 。 

(2) 结 点 度 4。 结 点 度 d 是 指 互连网 络 中 结 点 所 连接 的 边 数 ( 通 道 数 ) ,包括 和 人 度 和 出 
度 。 进 入 结 点 的 边 数 叫 入 度 , 从 结 点 出 来 的 边 数 叫 出 度 。 

(3) 结 点 距离 。 对 于 互连网 络 中 的 任意 两 个 结 点 ,其 距离 是 指 从 一 个 结 点 出 发 到 另 一 
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个 结 点 终止 所 需要 跨越 的 边 数 的 最 小 值 。 

(4) 网 络 直径 D。 网 络 直 径 是 指 互 连 网 络 中 任意 两 个 结 点 之 间距 离 的 最 大 值 。 网 络 中 
任意 两 个 结 点 之 间 传 送信 息 所 通过 的 边 数 都 不 会 大 于 网 络 直径 。 显 然 , 网 络 直 径 应 当 尽 可 
能 地 小 。 

(5) 等 分 宽度 02。 把 由 N 个 结 点 构成 的 网 络 切 成 结 点 数 相 同 (N/2) 的 两 半 , 在 各 种 切 
法 中 , 沿 切口 边 数 的 最 小 值 称 为 该 网 络 的 等 分 宽度 ,用 5 表示。 而 线 等 分 宽度 为 B=bXw。 
其 中 ,w 为 通道 宽度 (用 位 表示 )。 该 参数 主要 反映 了 网 络 的 最 大 流量 。 

(6) 对 称 性 。 如 果 从 任意 结 点 来 看 ,网 络 的 结构 都 是 相同 的 , 则 称 该 网 络 为 对 称 网 络 。 
对 称 网 络 实现 比较 容易 ,编程 也 比较 容易 。 


2. 互连网 络 的 性 能 指标 


时 延 和 带宽 是 用 来 评估 互连网 络 性 能 的 两 个 基本 指标 。 

1) 通信 时 延 

通信 时 延 是 指 从 源 结 点 到 目的 结 点 传送 一 条 消息 所 需 的 总 时 间 , 它 由 以 下 4 部 分 构成 。 

(1) 软件 开销 : 在 源 结 点 和 目的 结 点 用 于 收发 消息 的 软件 所 需 的 执行 时 间 。 

(2) 通道 时 延 : 通过 通道 传送 消息 所 花 的 时 间 。 通 道 时 延 一 消息 长 度 / 通 道 带宽 。 

(3) 选 路 时 延 : 消息 在 传送 路 径 上 所 需 的 一 系列 选 路 决策 所 需 的 时 间 开 销 。 

(4) 竞争 时 延 : 多 个 消息 同时 在 网 络 中 传送 时 ,会 发 生 争 用 网 络 资源 的 冲突 。 为 避免 
或 解决 争 用 冲突 所 需 的 时 间 。 

软件 开销 主要 取决 于 两 端 结 点 处 理 消息 的 软件 内 核 。 通 道 时 延 通常 由 瓶颈 链 路 的 通道 
带宽 决定 。 选 路 时 延 与 传送 路 径 上 的 结 点 数 成 正比 。 竞 争 时 延 很 难 预测 , 它 取决 于 网 络 的 
传输 状态 。 

2) 网 络 时 延 

网 络 时 延 是 指 通 道 时 延 与 选 路 时 延 的 和 。 它 是 由 网 络 硬件 特征 决定 的 ,与 程序 行为 和 
网 络 传 输 状态 无 关 。 而 软件 开销 和 竞争 时 延 则 是 与 程序 的 行为 有 关 。 

3) 端口 带宽 

对 于 互连网 络 中 的 任意 一 个 端口 来 说 ,其 端口 带宽 是 指 单位 时 间 内 从 该 端口 传送 到 其 
他 端口 的 最 大 信息 量 。 

在 对 称 网 络 中 ,端口 带宽 与 端口 位 置 无 关 。 网 络 的 端口 带宽 与 各 端口 的 端口 带宽 相同 。 
而 非 对 称 网 络 的 端口 带宽 则 是 指 所 有 端口 带宽 的 最 小 值 。 

4) 聚集 带宽 

网 络 的 聚集 带宽 是 指 网 络 从 一 半 结 点 到 另 一 半 结 点 ,单位 时 间 内 能 够 传送 的 最 大 信息 
量 。 例 如 ,HPS 是 一 种 对 称 网 络 , 网 络 规模 N 的 上 限 是 512, 端 口 带宽 是 40MB/s, 因 此 
HPS 的 聚集 带宽 是 : (40MB/sX512)/2 一 10. 24GB/s。 

5) 等 分 带宽 

与 等 分 宽度 对 应 的 切 平面 中 ,所 有 边 合 起 来 单位 时 间 所 能 传送 的 最 大 信息 量 称 为 该 网 
络 的 等 分 带宽 。 
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9.2.3 静态 互连网 络 


互连网 络 通常 可 以 分 为 两 大 类 : 静态 互连网 络 和 动态 互连网 络 。 静 态 互连网 络 是 指 各 
结 点 之 间 有 固定 的 连接 通路 、 且 在 运行 中 不 能 改变 的 网 络 。 而 动态 互连网 络 则 是 指 由 交换 
开关 构成 、 可 按 运行 程序 的 要 求 动态 地 改变 连接 状态 的 网 络 。 

下 面 介 绍 几 种 静态 互连网 络 , 其 中 的 N 表示 网 络 的 规模 , 即 结 点 的 个 数 。 


1. 线性 阵列 


线性 阵列 是 最 简单 的 拓扑 结构 ,其 中 N 个 结 点 用 N 一 1 条 链 路 连 成 一 行 。 其 优点 是 实 
现成 本 低 。 但 这 种 结构 不 对 称 ,而且 当 N 较 大 时 ,直径 也 比较 大 ,通信 效率 低 。 
线性 阵列 与 总 线 的 区 别 是 很 大 的 。 


2. 环 和 带 弦 环 


用 一 条 链 路 将 线性 阵列 的 两 个 端 结 点 连接 起 来 即 可 得 到 环 。 环 可 以 单 向 工作 ,也 可 以 
双向 工作 。 它 是 对 称 的 。 

在 环 的 基础 上 ,给 每 个 结 点 增加 一 条 或 两 条 链 路 , 即 可 得 到 两 种 带 弦 环 。 增 加 的 链 路 您 
多 , 结 点 度 愈 高 ,网 络 直径 就 愈 小 。 极 端 情况 : 全 连接 网 络 , 结 点 度 为 N 一 1 ,直径 为 1。 


3. 循环 移 数 网 络 


循环 移 数 网 络 是 通过 在 环 上 增加 以 下 链 路 而 构成 的 : 每 个 结 点 到 所 有 与 其 距离 为 2 的 
整数 寡 的 结 点 之 间 都 增加 一 条 链 路 。 也 就 是 说 ,如 果 上 一 丰 二 27r 一 0,1,2, 光一 1, (7 一 
log* N), 则 结 点 i 与 结 点 j 连接 。 

显然 ,与 结 点 度 较 低 的 任何 带 弦 环 相 比 ,循环 移 数 网 络 都 具有 更 好 的 连接 特性 。 对 
N=16 的 情况 ,循环 移 数 网 络 的 结 点 度 为 7, 直 径 为 2。 它 的 复杂 性 比 全 连接 网 络 低 得 多 。 


4. 树 状 和 星 状 


一 般 来 说 ,一 棵 太 层 完全 平衡 的 二 叉 树 有 N= 二 2 一 1 个 结 点 。 其 最 大 的 结 点 度 d 一 3, 由 
于 结 点 度 是 常数 ,因此 二 叉 树 是 一 种 可 扩展 的 结构 。 其 缺点 是 直径 比较 长 。 

星 状 网 络 是 一 种 两 层 的 树 , 结 点 度 为 4d 二 N 一 1, 直 径 DD 很 小 ,为 2。 但 其 可 靠 性 比较 
差 , 只 要 中 心 结 点 出 故障 ,整个 系统 就 会 瘫痪 。 


5. 胖 树 状 


树 状 网 络 的 一 个 主要 缺点 是 其 根部 结 点 以 及 连 到 根部 的 链 路 上 的 负载 比较 重 , 有 可 能 
会 成 为 整个 系统 的 瓶 项 。 胖 树 的 提出 使 该 问题 得 到 了 缓解 。 在 二 又 胖 树 中 , 胖 树 的 通道 宽 
度 从 叶 结 点 往 根 结 点 方向 逐渐 增 宽 , 它 更 像 真 实 的 树 , 傅 靠近 树 根 ,树干 就 愈 粗 。 


6. 网 格 状 和 环 状 
网 格 状 是 一 种 比较 流行 的 结构 , 它 已 经 以 各 种 变 体 形式 在 Illiac 人 ,CM-2 和 Intel 
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Paragon 等 机 器 中 得 到 了 实现 。 

一 般 来 说 ,一 个 由 N= 个 结 点 构成 的 k 维 网 格 状 网 络 (每 维 个 结 点 ) 的 内 部 结 点 度 
d 二 2k, 网 络 直 径 D==k(n 一 1)。 

llliac 网 络 的 名 称 来 源 于 采用 了 这 种 网 络 的 llliac W 计算 机 。 它 是 二 维 网 格 状 网 络 的 一 
种 变形 。 把 二 维 网 格 状 网 络 的 每 一 列 的 两 个 端 结 点 连接 起 来 ,再 把 每 一 行 的 尾 结 点 与 下 一 
行 的 头 结 点 连接 起 来 ,并 把 最 后 一 行 的 尾 结 点 与 第 一 行 的 头 结 点 连接 起 来 ,就 形成 了 Iliac 
网 络 。 

把 二 维 网 格 状 网 络 的 每 一 行 的 两 个 端 结 点 连接 起 来 ,把 每 一 列 的 两 个 端 结 点 也 连接 起 
来 ,就 成 了 环 状 网 络 。 环 网 是 一 种 对 称 的 拓扑 结构 ,所 有 附加 的 回 饶 连 接 使 得 原来 网 格 结构 
的 直径 减少 了 一 半 。 这 种 拓扑 结构 将 环 状 和 网 格 状 组 合 在 一 起 ,并 能 向 高 维 扩展 。 


7. 超 立 方 体 


这 是 一 种 二 元 六 立方 体 结构 ,一 般 来 说 ,一 个 二 元 六 立方 体 由 N 三 2 个 结 点 组 成 ,它们 
分 布 在 维 上 ,每 维 有 两 个 结 点 。 

将 两 个 3- 立方 体 中 相对 应 的 结 点 用 链 路 连接 起 来 , 便 可 形成 4- 立方体 。 以 此 类 推 , 便 
可 形成 更 多 维 的 立方 体 。 一 般 地 ,如 果 要 形成 一 个 规模 为 N= 二 2" 的 -立方 体 ,只 要 把 两 个 
(n 一 1)- 立 方 体 中 相对 应 的 结 点 用 链 路 连接 起 来 即 可 , 共 需 要 连接 2 条 链 路 。 由 于 对 于 7 
立方 体 中 的 每 一 个 结 点 来 说 ,在 其 每 一 维 的 方向 上 ,都 有 且 仅 有 一 个 结 点 与 其 相连 ,所 以 结 
点 的 度 d 三 n。n 维 立 方 体 的 直径 DD 二 ,等 分 宽度 为 5 二 N/2。 超 立方 体 结构 的 扩展 十 分 困 
难 。 超 立方 体 的 网 络 结构 是 对 称 的 。 


8. 带 环 立方 体 


一 般 来 说 , 带 环 大 立方 体 (简称 上 CCC) 是 大 立 方 体 的 变形 , 它 是 通过 用 & 个 结 点 构成 的 
环 取 代 大 立方 体 中 的 每 个 结 点 而 形成 的 。 

前 面 讲 过 ,k 维 立方 体 中 每 个 结 点 的 度 都 是 &, 即 有 A& 条 边 与 之 相连 。 当 用 由 个 结 点 
构成 的 环 取代 这 个 结 点 ( 设 为 a) 时 ,让 该 环 中 的 各 结 点 分 别 与 a 所 连接 的 & 条 边 连接 。 这 
样 一 来 ,不 管 带 环 大 立方 体 的 & 有 多 大 ,所 有 结 点 的 度 都 是 常数 3 ,与 超 立方 体 的 维 数 无 关 ， 
因而 具有 很 好 的 扩展 性 。 


9. 大 元 -立方 体 网 络 


环 状 .网 状 、 环 网 状 、 二 元 六 立方 体 ( 超 立方 体 ) 和 Omega 网 络 都 是 & 元 六 立 方 体 网 络 系 
列 的 拓扑 同 构 体 。 在 元- 立方体 网 络 中 ,参数 nn 是 立方 体 的 维 数 ,k 是 基数 , 即 每 一 维 上 
的 结 点 个 数 。 这 两 者 的 关系 是 : 

N=k", (k= VN ,n= logN) 

按照 惯例 ,通常 把 低 维 k 元 nn- 立 方 体 称 为 环 网 ,而 把 高 维 k 元 nn- 立方 体 称 为 超 立 方 体 。 

大 多 数 网 络 的 结 点 度 都 不 超过 4, 这 是 比较 理想 的 。 全 连接 网 络 和 星 状 网 络 的 结 点 度 
太 高 。 超 立方 体 的 结 点 度 随 logsN 值 的 增 大 而 增 大 , 当 N 值 很 大 时 其 结 点 度 也 太 高 。 

网 络 直径 的 变化 范围 很 大 。 虽 然 直径 小 仍然 是 一 种 优点 ,但 随 着 硬件 寻 径 技术 不 断 革 
新 ,直径 已 不 是 一 个 严重 的 问题 ,因为 在 采用 高 度 流水 技术 后 ,任意 两 结 点 间 的 通信 延迟 几 
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乎 是 固定 不 变 的 。 链 路 数 会 影响 网 络 价格 ,等 分 宽度 将 影响 网 络 的 带宽 ,可 以 通过 采用 较 宽 
的 通道 来 扩大 等 分 宽度 。 

对 称 性 会 影响 可 扩 放 性 和 寻 径 效率 。 网 络 的 总 价格 随 网 络 直径 和 链 路 数 的 增 大 而 上 
升 。 直 径 小 仍然 是 一 个 优点 ,但 结 点 之 间 的 平均 距离 可 能 是 一 种 更 好 的 度量 指标 。 


9.2.4 动态 互连网 络 


动态 互连网 络 设置 有 源 开 关 , 因 而 能 够 根据 需要 借助 控制 信号 对 连接 通路 加 以 重新 组 
合 ,实现 所 要 求 的 通信 模式 。 下 面 介 绍 总 线 网 络 .交叉 开关 网 络 和 多 级 互连网 络 。 


1. 总 线 网 络 


总 线 由 一 组 导线 和 插座 构成 ,经 常 被 用 来 实现 计算 机 系统 中 处 理 机 模块 .存储 模块 和 外 
围 设备 等 之 间 的 互 连 。 总 线 系统 具有 结构 简单 、 实 现成 本 低 等 优点 。 但 由 于 是 由 许多 模块 
分 时 共享 ,每 次 只 能 处 理 一 个 请 求 ,所 以 它 很 容易 就 会 成 为 系统 的 瓶颈 。 

为 了 解决 总 线 带 宽 较 窄 的 问题 ,可 以 采用 多 总 线 或 多 层次 的 总 线 。 


2. 交叉 开关 网 络 


可 以 把 交叉 开关 网 络 看 作 一 个 单 级 开关 网 络 。 像 电话 交换 机 一 样 ,交叉 点 开关 能 在 对 
偶 ( 源 目的) 之 间 形 成 动态 连接 ,同时 实现 多 个 对 偶 之 间 的 无 阻塞 连接 。 开 关 可 根据 程序 的 
要 求 动态 地 设置 为 “ 开 ? 或 “ 关 ”。 与 其 他 的 动态 互连网 络 相 比 ,交叉 开关 网 络 的 带宽 和 互 连 
特性 是 最 好 的 。 对 于 一 个 nXn 的 交叉 开关 网 络 , 可 以 无 阻塞 地 实现 n! 种 置换 。 不 过 ,对 
一 个 nXn 的 交叉 开关 网 络 来 说 ,需要 ww* 套 交叉 点 开关 以 及 大 量 的 连 线 。 当 n 很 大 时 ,交叉 
开关 网 络 所 需要 的 硬件 数量 非常 巨大 。 因 此 ,一 般 只 及 n 三 16 的 小 型 交叉 开关 网 络 用 在 商 
品 化 的 机 器 中 。 

我 们 可 以 在 处 理 机 和 存储 器 模块 之 间 用 交叉 开关 网 络 互 连 , 构 成 一 个 共享 存储 器 的 多 
处 理 机 。 这 里 ,每 个 存储 模块 一 次 只 能 满足 一 台 处 理 机 的 请 求 。 当 多 个 请 求 要 同时 访问 同 
一 存储 模块 时 ,交叉 开关 就 必须 分 解 所 发 生 的 冲突 ,每 一 列 只 能 接 通 一 个 交叉 点 开关 。 但 
是 ,每 一 台 处 理 机 可 能 会 产生 一 系列 地 址 要 同时 访问 多 个 存储 模块 。 为 了 支持 并 行 (或 交 
叉 ) 存 储 器 访问 ,可 以 在 同一 行 中 接 通 几 个 交叉 点 开关 。 

处 理 机 之 间 的 交叉 开关 可 以 实现 处 理 机 之 间 的 置换 连接 ,但 这 只 是 一 对 一 的 连接 。 所 
以 nxn 交叉 开关 网 络 一 次 最 多 可 实现 个 “ 源 -目的 "对 的 连接 。 


3. 多 级 互连网 络 


1) 多 级 互连网 络 的 构成 

MIMD 和 SIMD 计算 机 都 使 用 多 级 互连网 络 MIN。 各 种 多 级 互连网 络 的 区 别 在 于 所 
用 开关 模块 .控制 方式 和 级 间 互 连 模式 的 不 同 。 

常用 的 开关 模块 为 : 2X2、4X4、8X8。 这 些 模块 中 ,每 个 输入 可 与 一 个 或 多 个 输出 相 
连 ,但 是 在 输出 端 不 许 发 生 冲 突 。 最 简单 的 开关 模块 是 2x2 开关。 可 用 作 各 种 多 级 互连网 
络 的 基本 构件 。2X2 开关 有 4 种 连接 方式 : 直送 ,交叉 ,上 播 ,下 播 。 
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控制 方式 是 指 对 各 个 开关 模块 进行 控制 的 方式 ,有 以 下 3 种 选择 。 

(1) 级 控制 : 每 一 级 的 所 有 开关 只 用 一 个 控制 信号 进行 控制 ,这 些 开 关 只 能 同时 处 于 
同一 种 状态 。 

(2) 单元 控制 : 每 一 个 开关 都 有 一 个 独立 的 控制 信号 ,可 各 自 处 于 不 同 的 状态 。 

(3) 部 分 级 控制 : 第 i 级 的 所 有 开关 分 别 用 i 十 1 个 信号 控制 ,0<i<n 一 1,n 为 级 数 。 

常用 的 级 间 互 连 模式 包括 均匀 洗 牌 、 蝶 式 多 路 洗 牌 纵横 交叉 .立方 体 连 接 等 。 

2) 多 级 立方 体 网 络 

多 级 立方 体 网 络 包 括 STARAN 网 络 和 间接 二 进 制 n 方 体 网 络 等 。 这 两 者 仅 在 控制 方 
式 上 不 同 , 在 其 他 方面 都 是 一 样 的 。 它 们 都 是 采用 二 功能 (直送 和 交换 ) 的 2X2 开关 。 当 第 
i 级 (0 三 in 一 1) 交 换 开 关 处 于 交换 状态 时 ,实现 的 是 Cube; 互 连 函 数 。 

STARAN 网 络 采用 级 控制 和 部 分 级 控制 ,而 间接 二 进 制 方 体 网 络 则 采用 单元 控制 。 
因而 后 者 具有 更 大 的 灵活 性 。 当 STARAN 网 络 采 用 级 控制 时 ,所 实现 的 是 交换 功能 ; 而 
采用 部 分 级 控制 时 , 则 能 实现 移 数 功能 。 

所 谓 交 换 , 是 指 将 有 序 的 一 组 元 素 头 尾 对 称 地 进行 交换 。 

3) Omega 网 络 

一 般 来 说 ,一 个 N 输入 的 Omega 网 络 有 log: N 级 ,每 级 用 N/2 个 四 功能 的 2X2 开关 
模块 , 共 需 要 log, NX N/2 个 开关 。 每 个 开关 模块 均 采用 单元 控制 方式 。 

Omega 网 络 与 间接 二 进 制 n 方 体 网 络 在 拓扑 结构 上 正好 是 互 逆 的 。 所 以 ,如 果 Omega 
网 络 也 采用 二 功能 交换 开关 ,那么 Omega 网 络 和 间接 二 进 制 方 体 网 络 就 互 为 逆 网 络 。 


4. 动态 互连网 络 的 比较 


总 线 互 连 的 复杂 性 最 低 ,成 本 也 是 最 低 。 其 缺点 是 每 台 处 理 机 可 用 的 带宽 较 罕 。 

交叉 开关 是 最 昂贵 的 ,因为 其 硬件 复杂 性 以 妈 上 升 ,所 以 其 成 本 最 高 。 但 是 交叉 开关 
的 带宽 和 寻 径 性 能 最 好 。 如 果 网 络 的 规模 较 小 , 它 是 一 种 理想 的 选择 。 

多 级 互连网 络 的 复杂 度 和 带宽 介 于 总 线 和 交叉 开关 之 间 , 是 一 种 折 中 方案 。 其 主要 优 
点 是 采用 模块 化 结构 ,可 扩展 性 较 好 。 不 过 ,其 时 延 随 网 络 级 数 的 增加 而 上 升 。 另 外 ,由 于 
其 硬件 复杂 度 比 总 线 高 很 多 ,其 成 本 也 不 低 。 


9.2.5 消息 传递 机 制 


消息 传递 机 制 在 实现 多 处 理 机 或 多 计算 机 中 各 结 点 之 间 的 互 连 通信 中 有 重要 的 作用 。 
在 这 样 的 系统 中 ,处 理 机 之 间 是 通过 发 送 消息 来 进行 通信 的 。 当 某 个 处 理 机 ( 设 为 A) 要 对 
远程 存储 器 上 的 数据 进行 访问 (或 操作 ) 时 , 它 就 通过 给 相应 的 远程 处 理 机 ( 设 为 B) 发 送 一 
个 消息 来 请 求 数据 (或 对 该 数据 进行 操作 )。 在 这 种 情况 下 ,可 以 把 该 消息 看 成 是 一 个 远程 
进程 调用 (Remote Process Call,RPC) 。 当 目的 处 理 器 B 接收 到 消息 以 后 ,就 代替 远程 处 理 
器 A 对 相应 的 数据 进行 访问 (或 执行 相应 的 操作 ) ,然后 发 送 一 个 应 答 消 息 给 处 理 器 A, 将 
结果 返回 。 

当 源 结 点 和 目的 结 点 之 间 没 有 直接 的 连接 时 ,消息 需要 经 过 中 间 的 结 点 进行 传递 。 
寻 径 就 是 用 来 实现 这 种 传递 的 通信 方法 和 算法 。 有 的 文献 称 之 为 路 由 。 
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1. 消息 寻 径 方案 


1) 消息 的 格式 

消息 是 结 点 之 间 进 行 通信 的 逻辑 单位 。 消 息 一 般 是 由 若干 个 * 包 ?组 成 。 尽 管 包 的 长 度 
是 固定 的 ,但 因 一 条 消息 中 所 包含 的 包 的 个 数 是 可 变 的 ,所 以 消息 的 长 度 是 不 定 长 的 。 

包 是 包含 寻 径 所 需 目的 地 址 的 基本 单位 。 由 于 不 同 的 包 可 能 是 异步 到 达 目 的 结 点 的 ， 
因此 一 条 消息 中 的 各 个 包 都 依次 被 分 配 一 个 序号 ,以 便 这 些 包 到 达 目 的 结 点 后 能 重新 组 装 
出 消息 。 

包 可 以 进一步 分 成 一 些 更 小 的 固定 长 度 的 单位 , 称 为 * 片 ”。 寻 径 信 息 和 包 序列 号 形成 
头 片 , 其 余 的 是 数据 片 。 

包 的 长 度 主要 是 由 寻 径 方案 和 网 络 的 具体 实现 所 决定 的 ,典型 的 长 度 是 64 一 512 位 不 
等 ; 片 的 长 度 经 常 是 受 网 络 大 小 的 影响 ,例如 ,一 个 由 256 个 结 点 构成 的 网 络 要 求 片 的 长 度 
为 8 位 。 其 他 影响 包 的 长 度 和 片 的 长 度 的 因素 还 有 通道 带宽 、 寻 径 设 计 、 网 络 的 流量 密 
度 等 。 

2) 4 种 寻 径 方式 

消息 寻 径 方式 可 以 分 为 两 大 类 : 线路 交换 和 包 交换 。 包 交换 又 分 为 存储 转发 .虚拟 直 
通 、. 虫 蚀 3 种 方式 。 

(1) 线路 交换 

在 线路 交换 方式 下 ,在 传递 一 个 信息 之 前 ,需要 先 建立 一 条 从 源 结 点 到 目的 结 点 的 物理 
通路 ,然后 再 传递 信息 。 其 传输 时 延 了 为 : 
_L+iLx(D+y) 

B 

其 中 ,LL 为 信息 包 的 长 度 (位 数 ),L, 为 建立 路 径 所 需 的 小 信息 包 的 长 度 ,D 为 经 过 的 中 
间 结 点 个 数 ,B 为 带宽 。 

线路 交换 的 优点 是 : 传输 带宽 较 大 ,平均 传输 时 延 较 小 ,而 且 使 用 的 缓冲 区 小 。 因 而 适 
合 于 具有 动态 和 突 发 性 的 大 规模 并 行 处 理 数据 的 传送 。 缺 点 是 : 需要 频繁 地 建立 源 结 点 到 
目的 结 点 的 物理 通路 ,时 间 开 销 会 很 大 。 

(2) 存储 转发 

存储 转发 是 最 简单 的 分 组 交换 方式 。 在 这 种 方式 中 , 包 是 信息 传递 的 基本 单位 。 包 从 
源 结 点 经 过 一 系列 中 间 结 点 到 达 目 的 结 点 。 存 储 转发 要 求 所 经 过 的 每 个 中 间 结 点 都 要 设置 
一 个 包 缓冲 器 ,用 于 保存 所 传递 的 包 。 当 一 个 包 到 达 某 个 中 间 结 点 时 ,该 结 点 先 把 这 个 包 全 
部 存储 起 来 ,然后 在 出 口 链 路 可 用 而 且 下 一 个 结 点 的 包 缓冲 器 也 可 用 的 情况 下 ,传递 给 下 一 
处 编 引 = 

存储 转发 方式 中 ,网 络 的 时 延 与 源 和 目的 地 之 间 的 距离 ( 跳 数 ) 成 正比 ,时 延 Ts 为 : 


Ts =§(D+D (9.2) 


式 中 ,D,L,B 参数 的 含义 同 式 (9. 1) 。 
存储 转发 方式 的 缺点 : 四 包 缓 冲 区 大 ,不 利于 VLSI 实现 ; @ 网 络 时 延 大 ,与 结 点 距离 
成 正比 。 


于 (9,1) 
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(3) 虚拟 直通 

虚拟 直通 是 对 存储 转发 方式 的 一 种 改进 ,减少 了 网 络 时 延 。 其 基本 思想 是 : 没有 必要 
等 到 信息 包 全 部 放 入 缓冲 器 后 再 做 路 由 选择 ,只 要 接收 到 用 作 寻 径 的 包头 ,就 可 做 出 判断 。 
如 果 结 点 的 输出 链 路 空闲 ,信息 包 可 以 不 必 存 储 在 该 结 点 的 缓冲 器 中 ,而 是 立即 传送 到 下 一 
个 结 点 。 如 果 整 条 链 路 都 空闲 , 包 就 可 以 立即 直达 目的 结 点 。 这 时 它 就 同 使 用 线路 交换 一 
样 。 但 是 ,这 种 方式 还 是 要 求 每 个 结 点 中 有 缓冲 器 。 这 是 因为 在 输出 链 路 不 空闲 时 ,还 是 要 
用 缓冲 器 进行 存储 。 所 以 无 论 用 存储 转发 还 是 用 虚拟 直通 ,在 各 中 间 结 点 都 需要 设置 组 
冲 器 。 

虚拟 直通 的 通信 时 延 为 : 
L+ixDtD 2 L 

B B 


四 
式 中 ,六 是 信息 包 寻 径 头 部 的 长 度 。 

一 般 来 说 ,LL 二 LX (D 十 1), 所 以 TL/B。 可 以 看 出 ,此 时 通信 时 延 与 结 点 数目 无 
关 , 这 是 一 个 非常 大 的 改进 。 

当 出 现 寻 径 阻 塞 时 ,虚拟 直通 方式 也 只 好 将 整个 信息 包 全 部 存储 在 寻 径 结 点 中 ,直到 通道 
不 阻塞 时 才能 将 信息 包 发 出 。 这 就 要 求 每 个 结 点 都 有 足够 大 的 缓冲 区 来 存储 可 能 出 现 的 最 大 
的 信息 包 。 在 这 一 点 上 ,虚拟 直通 方式 与 存储 转发 方式 是 一 样 的 ,同样 不 利于 VLSI 的 实现 。 

(4) 虫 蚀 方式 

虫 蚀 方式 比 虚拟 直通 又 有 了 改进 。 它 把 信息 包 ”* 切 割 ? 成 更 小 的 单位 一 -一片 ,而且 使 
信息 包 中 各 片 的 传送 按 流水 方式 进行 ,所 以 不 仅 可 以 减少 结 点 中 缓冲 器 的 容量 ,而 且 还 能 缩 
短 传送 延迟 时 间 。 虫 蚀 方式 在 新 型 的 多 计算 机 系统 中 得 到 了 广泛 的 应 用 。 

虫 蚀 方式 所 能 处 理 的 最 小 信息 单位 是 “ 片 ”。 当 一 个 结 点 把 头 片 送 到 下 一 个 结 点 后 , 那 
么 接 下 来 就 可 以 把 后 面 的 各 个 片 也 依次 送出 。 一 个 结 点 一 旦 开始 传送 一 个 包 中 的 头 片 后 ， 
这 个 结 点 就 必须 等 待 这 个 包 的 所 有 片 都 送出 去 后 ,才能 传送 其 他 包 。 不 同 包 的 片 不 能 混合 
在 一 起 传送 。 

这 种 虫 亿 方式 有 点 儿 像 虚拟 直通 ,但 不 同 之 处 在 于 : 当 输 出 通路 忙 时 , 结 点 是 把 一 个 片 
存储 到 缓冲 器 中 。 由 于 片 的 大 小 比 包 小 很 多 ,所 以 能 有 效 地 减少 缓冲 器 的 容量 ,使 得 它 易于 
用 VLSI 实现 。 

对 于 一 个 受到 阻塞 的 包 来 说 , 它 的 前 后 连续 的 各 个 片 可 以 散布 在 若干 个 中 间 结 点 中 。 
换 句 话说 ,整个 包 停 留 在 已 建立 的 通路 中 的 某 一 路 径 段 里 。 当 可 以 继续 向 前 传送 时 , 头 片 每 
向 前 传送 一 个 结 点 ,其 他 数据 片 就 跟着 相应 地 向 前 “蠕动 ”一 步 ,就 好 像 一 条 虫 那 样 蠕动 
前 进 。 

虫 蚀 方式 的 通信 时 延 为 : 


四 天 
Twn 一 TrXD 十 如 








《9. 3) 


让 夫 冯 尖 苏 >、 于 
B B 
式 中 ,L7 是 “ 片 ” 的 长 度 ,T 是 片 经 过 一 个 结 点 所 需 时 间 , 上 之 之 LrXD。 从 该 式 看 出 ,通信 时 
延 与 结 点 数 无 关 。 
虫 蚀 方式 的 优点 是 : 四 每 个 结 点 的 缓冲 器 较 小 ,易于 VLSI 实现 ; @@ 有 和 较 小 的 网 络 传输 
延迟 ; @@ 通 道 共 享 性 好 ,利用 率 高 ; @ 易 于 实现 选 播 和 广播 通信 模式 。 











(9.4) 
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然而 , 虫 俐 方式 也 有 缺点 。 当 消息 的 一 片 被 阻塞 时 ,整个 消息 的 所 有 片 都 将 被 阻塞 在 所 
在 结 点 ,占用 了 结 点 资源 。 


2. 死 锁 与 虚拟 通道 


1) 虚拟 通道 

虚拟 通道 是 两 个 结 点 间 的 逻辑 连接 , 它 由 源 结 点 的 片 缓冲 区 、 结 点 间 的 物理 通道 以 及 接 
收 结 点 的 片 缓冲 区 组 成 。 当 物理 通道 分 配给 某 对 缓冲 区 时 ,这 一 对 的 源 缓冲 区 和 接收 缓冲 
区 就 形成 了 一 条 虚拟 通道 。 物 理 通 道 是 由 所 有 的 虚拟 通道 分 时 地 共享 。 除了 有 关 的 缓冲 区 
和 通道 以 外 ,还 必须 用 某 些 通道 状态 来 区 分 不 同 的 虚拟 通道 。 源 缓冲 区 存放 等 待 使 用 通道 的 
片 。 接 收 缓冲 区 存放 由 通道 刚刚 传送 过 来 的 片 。 通 道 (电缆 或 光纤 ) 是 它们 之 间 的 通信 媒介 。 

虚拟 通道 也 可 以 用 双向 通道 实现 。 把 两 条 单 向 通道 组 合 在 一 起 可 以 构成 一 条 双向 通 
道 。 这 不 仅 增加 了 利用 率 ,还 可 使 通道 的 频 宽 加 售 。 

2) 避免 死 锁 

缓冲 区 或 通道 上 的 循环 等 待 会 引起 死 锁 。 利 用 虚拟 通道 方法 可 以 避免 一 些 死 锁 。 但 是 
增加 虚拟 通道 可 能 会 使 每 个 请 求 可 用 的 有 效 通 道 频 宽 降低 。 为 此 , 当 实现 数目 很 大 的 虚拟 
通道 时 需要 用 高 速 的 多 路 选择 开关 。 


3. 流 控制 策略 


当 两 个 或 更 多 的 包 在 某 个 结 点 为 竞争 缓冲 区 或 通道 资源 发 生 冲 突 时 ,必须 使 用 预先 确 
定好 的 策略 来 解决 冲突 。 我 们 要 寻找 的 是 不 会 引起 拥挤 或 死 锁 的 控制 网 络 流量 的 策略 。 

1) 包 冲 突 的 解决 

为 了 通过 通道 在 两 个 相 邻 结 点 之 间 传 送 一 个 片 ,要 同时 具备 3 个 条 件 : 四 源 缓冲 区 已 
存 有 该 片 ; @ 通 道 已 分 配 好 ; @ 接 收 缓冲 区 准备 接收 该 片 。 

当 两 个 包 到 达 同 一 个 结 点 时 ,它们 可 能 都 在 请 求 同 一 个 接收 缓冲 器 或 者 同一 个 输出 通 
道 ,这 时 必须 对 两 个 问题 进行 仲裁 : 把 通道 分 配给 哪个 包 ? @@ 如 何 处 理 被 通道 拒绝 的 包 ? 
下 面 给 出 4 种 解决 方案 。 这 里 假设 是 把 通道 分 配给 第 一 个 包 , 第 二 个 包 被 拒绝 。 

(1) 把 第 二 个 包 暂 存在 缓冲 区 。 

设置 两 个 缓冲 区 ,一 个 是 包 缓冲 区 , 另 一 个 是 片 缓冲 区 。 将 第 一 个 包 分 配给 片 缓冲 区 直 
接送 往 输 出 通道 ,而 第 二 个 包 则 被 放 和 人 包 缓 冲 区 。 当 以 后 通道 变 为 可 用 时 ,再 来 传输 第 二 
个 包 。 

(2) 阻塞 第 二 个 包 。 即 把 第 一 个 包 送 入 片 缓冲 区 ,同时 用 门 控 将 第 二 个 包 阻 塞 。 不 过 ， 
并 没有 把 这 个 包 丢弃 。 

(3) 丢弃 第 二 个 包 。 即 把 第 一 个 包 送 入 片 缓冲 区 ,并 把 第 二 个 包 丢 弃 。 

(4) 绕道 。 即 把 第 一 个 包 送 入 片 缓冲 区 ,而 把 第 二 个 包 导 向 其 他 通道 传输 。 

在 上 述 方法 中 ,丢弃 法 有 可 能 会 造成 严重 的 资源 浪费 ,而 且 要 求 重 新 进行 被 丢弃 包 的 传 
输 与 确认 。 这 种 策略 现在 已 很 少 采 用 ,因为 它 的 包 传 输 率 不 稳定 。 绕 道 法 在 包 寻 径 方 面 提 
供 了 更 多 的 灵活 性 ,但 为 了 到 达 目 的 结 点 .可 能 要 花费 超过 实际 需要 的 通道 资源 ,造成 浪费 。 

2) 确定 性 寻 径 和 自 适应 寻 径 

常用 的 寻 径 方法 有 两 种 : 确定 性 寻 径 和 自 适应 寻 径 。 在 确定 性 寻 径 中 ,通信 和 路径 完全 
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由 源 结 点 地 址 和 目的 地 址 来 决定 ,也 就 是 说 , 寻 径 路 径 是 预先 唯一 地 确定 好 了 的 ,而 与 网 络 
的 状况 无 关 。 在 自 适应 寻 径 方法 中 ,通信 的 通路 每 一 次 都 要 根据 资源 或 者 网 络 的 情况 来 选 
择 。 这 样 就 可 以 避 开 拥挤 的 或 者 有 故障 的 结 点 ,从 而 使 网 络 的 利用 率 可 以 得 到 改进 。 

不 管 采用 哪 一 种 寻 径 , 都 希望 不 会 产生 死 锁 。 


对 了 


F 一 个 多 维 网 来 说 , 维 序 寻 径 要 求 对 后 继 通道 的 选择 是 按照 各 维 的 顺序 来 进行 的 。 





对 于 二 维 的 网 格 网 络 来 说 ,这 种 寻 径 方法 被 称 为 生 Y 寻 径 ,因为 它 首先 是 沿 X 维 方向 进行 


寻 径 , 然 


后 再 沿 Y 维 方向 寻找 路 径 。 对 于 超 立方 体 来 说 ,这 种 寻 径 方法 被 称 为 E-cube 寻 径 。 


对 于 给 定 的 任意 一 个 源 结 点 *= (xi,y1) 和 任意 一 个 目的 结 点 d 一 (zy), 从 出 发 ， 
先 沿 X 轴 方 向 前 进 ,直到 找到 4d 所 在 的 列 x,; 然后 再 沿 Y 轴 方 向 前 进 ,直到 找到 目标 结 点 


(zzyyz) 


4. 选 播 和 广播 寻 径 算 法 


多 计算 机 网 络 中 会 出 现 以 下 4 种 通信 模式 。 

单 播 : 对 应 于 一 对 一 的 通信 情况 , 即 一 个 源 结 点 发 送 消息 到 一 个 目的 结 点 。 

选 播 : 对 应 于 一 到 多 的 通信 情况 , 即 一 个 源 结 点 发 送 同一 消息 到 多 个 目的 结 点 。 

广播 : 对 应 于 一 到 全 体 的 通信 情况 , 即 一 个 源 结 点 发 送 同一 消息 到 全 部 结 点 。 

会 议 : 对 应 于 多 到 多 的 通信 情况 。 

通道 流量 和 通信 时 延 是 常用 的 两 个 参数 。 通 道 流量 可 用 传输 有 关 消 息 所 使 用 的 通道 数 


来 表示 。 


通信 时 延 则 用 包 的 最 大 传输 时 间 来 表示 。 


优化 的 寻 径 网 络 应 能 以 最 小 流量 和 最 小 时 延 实现 相关 的 通信 模式 。 然 而 ,这 两 个 参数 并 
不 是 毫 不 相关 的 。 达 到 最 小 流量 的 同时 ,并 不 一 定 能 达到 最 小 时 延 。 相 反 的 情况 也 是 如 此 。 

这 与 所 使 用 的 交换 技术 有 关 , 在 存储 转发 网 络 中 时 延 是 最 重要 的 问题 ,而 在 虫 他 网 络 中 
流量 对 效率 的 影响 则 更 大 。 


习 题 
1. 概念 题 
【 题 9.1】 解释 以 下 名 词 
互连网 络 互 连 函 数 网 络 规模 结 点 度 
结 点 距离 网 络 直径 等 分 带宽 对 称 网 络 
静态 互连网 络 ”动态 互连网 络 。 虚拟 通道 自 适应 寻 径 
2. 选择 题 
【 题 9.2】 道 均 匀 洗 牌 函数 得 到 输出 端 地 址 的 方法 是 把 输入 端 二 进 制 地 址 ( 站 
A. 循环 左 移 一 位 
B. 循环 右 移 一 位 


C. 从 第 & 位 开始 的 低 端 地 址 部 分 循环 左 移 一 位 
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D. 从 最 高 位 至 第 n 一 & 一 1 位 的 高 端 地 址 部 分 循环 左 移 一 位 
【 题 9. 3】 32 个 结 点 的 立方 体 连接 的 互 连 函 数 的 个 数 是 ( Ws 


A. 6 了 5 和 :3 
【 题 9.4】 64 个 结 点 的 PM2I 函数 的 个 数 是 ( Ws 

A. 6 B. 8 i D. 64 

【 题 9. 5〗】 用 循环 函数 形式 表示 8 个 结 点 的 PM211 函 数 ,应 该 是 ( Ne 

A. (6420)(7531) B. (0246)(1357) 

C. (01234567) D: (0 4)C1 5)(2 6)(3 7) 

【是 9.6】 llliac K 阵列 处 理 机 中 ,各 处 理 单元 之 间 所 用 的 互 连 函 数 是 ( Ns 
A. PM24。 和 PM24,; B. 立方 体 CGo 和 CC 

C. PM24; D. 均匀 洗 牌 

【 题 9. 7〗 结构 不 对 称 的 静态 互连网 络 是 ( 

A. 线性 阵列 B. 环 网 C. 立方 体 网 络 D. 全 连接 网 络 
【 题 9.8〗 结构 对 称 的 静态 互连网 络 是 ( Ws 

A. 二 又 树 B. 星 状 C. 二 维 网 格 D. 超 立 方 体 
【 题 9.9】 下 列 静 态 互连网 络 中 ,可 扩展 性 最 差 的 是 ( 法 

A. 环 网 B. 网 格 网 C. 带 环 立 方 体 D. 立方 体 
【 题 9.10】 多 级 混 洗 ( 均 匀 洗 牌 ) 置 换 网 络 又 称 为 ( js 

A. STARAN 网 络 ”B. Omega 网 络 C. 交换 网 络 D. 移 数 网 络 


【 题 9.11】 Omega 网 络 采用 ( i 

A. 2 功能 2X2 开关 ,单元 控制 方式 B. 4 功能 2X2 开关 ,单元 控制 方式 

C. 2 功能 2X2 开关 ,级 控制 方式 D. 4 功能 2X2 开关 ,级 控制 方式 

【 题 9.12】 三 级 STARAN 网 络 对 8 个 输入 端 实现 两 组 4 元 分 组 交换 后 ,输入 端 端 号 


序列 [0 1 2 3 4 5 6 7] 和 置换 连接 的 输出 端 端 号 序列 为 ( hs 








A. [76543210] B: [S10 

C. [10325476] D. [67452301] 

【 题 9.13】 下 列 4 种 消息 寻 径 方式 中 ,不 属于 包 交 换 的 消息 寻 径 方式 是 ( 号 

A. 存储 转发 寻 径 B. 虚拟 直通 寻 径 ” C. 虫 他 寻 径 D. 线路 交换 寻 径 

【 题 9.14】 虫 蚀 寻 径 以 流水 方式 在 各 寻 径 器 中 顺序 传送 的 是 ( js 

A. 消息 B. 包 CG 片 D. 字 节 

3. 填空 题 

【 题 9. 15〗 互连网 络 有 三 大 要 素 : 和 

【 题 9. 16】 在 保持 网 络 拓扑 结构 不 变 的 情况 下 ,网络 可 扩充 的 结 点 数 越 多 , 则 称 网 络 
的 越 好 。 

【是 9.17】 为 了 反映 不 同 互连网 络 的 连接 特性 ,每 种 互连网 络 可 用 一 组 来 描 
述 , 它 表示 相互 连接 的 端 号 和 端 号 之 间 的 一 一 对 应 关系 。 





【 题 9.18】 设 C 为 立方 体 互 连 函 数 ,o 为 均匀 洗 牌 函数 ,8 为 蝶 式 函数 ,o 为 反 位 序 函数 ， 


则 C;(0110)= »00) (0110)= *B(0110) 一 02 (0110) 一 
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【 题 9. 19】 用 互连网 络 互 连 16 个 处 理 机 ,编号 为 0 一 15。 若 互 连 函 数 为 立方 体 函 数 
Cs(Co), 则 7 号 处 理 机 连 至 号 处 理 机 。 若 互 连 函 数 为 移 数 函数 PM2;;, 则 7 号 处 
理 机 连 至 号 处 理 机 。 

【 题 9.20】〗 设 C 为 立方 体 互 连 函数 ,o 为 均匀 洗 牌 函数 ,互连网 络 的 输入 端 为 X= 二 zz,_1 
Za-2"…Zi"…Z1ZT0 :车 该 互连网 络 实现 的 互 连 函 数 为 o(C;), 则 连接 的 输出 端 为 

【 题 9.21】 NN 个 结 点 的 PM2I 单 级 网 络 的 最 大 距离 为 

【 题 9.22】 N 个 端的 混 洗 交换 网 络 中 ,最 远 的 两 个 人 、 出 端的 二 进 制 编号 是 
和 ,其 最 大 距离 为 2logs N 一 1。 

【 题 9.23】 0 一 7 共 8 个 处 理 单元 经 Cs 十 Co 互 连 ,第 7 号 处 理 单元 将 连 至 第 
号 处 理 单元 。 











【 题 9.24】 互连网 络 的 结 点 度 是 指 连 接 到 结 点 上 的 。 在 有 向 图 中 , 结 点 度 是 
和 之 和 。 
【 题 9. 25〗 由 N 个 结 点 用 NN 一 1 条 链 路 连 成 的 线性 阵列 ,内 部 结 点 的 度 d= 
, 端 结 点 的 度 d= ,直径 D= ,等 分 宽度 0 一 
【 题 9. 26〗 各 种 多 级 互连网 络 的 区 别 在 于 所 用 和 的 
不 同 。 
【 题 9.27】 2X2 开关 有 和 4 种 连接 方式 。 
【 题 9.28】 一 般 来 说 ,一 个 N 输入 的 多 级 立方 体 网 络 有 级 ,每 级 用 
个 2X2 开关 模块 , 共 需 要 个 开关 。 
【 题 9.29〗 在 STARAN 网 络 中 ,采用 级 控制 时 ,所 实现 的 是 功能 ; 而 采用 部 
分 级 控制 时 , 则 能 实现 功能 。 


【 题 9. 30〗 SIMD 立方 体 多 级 互连网 络 中 ,第 i 级 的 所 有 开关 用 i 十 1 个 控制 信号 控 
制 , 称 此 为 控制 。 
【 题 9.31】 在 SIMD 互 连 的 多 级 网 络 中 ,实现 移 数 函数 功能 中 最 便宜 的 方案 是 用 
多 级 控制 , 且 控 制 方式 采用 。 
【 题 9.32】 llliac NM 8X8 的 阵列 中 ,任意 两 个 处 理 单 元 之 间 通 信 的 最 短 距离 不 会 超 














过 。 
【 题 9. 33】 在 消息 传递 机 制 中 ,消息 一 般 是 由 若干 个 组 成 , 包 的 长 度 是 
,但 一 条 消息 中 所 包含 的 包 的 个 数 是 。 包 又 可 以 进一步 分 成 一 些 更 小 的 
固定 长 度 的 单位 , 称 为 。 
【 题 9. 34】 消息 寻 径 方式 可 以 分 为 和 两 大 类 。 包 交换 又 分 为 
ys 和 3 种 方式 。 
【 题 9.35】 当 两 个 包 在 传输 过 程 中 争 用 某 个 中 间 结 点 的 同一 条 输出 通道 时 ,有 4 种 方 
法 解决 包 冲 突 问题 。 这 4 种 方法 是 、 、 和 s 
【 题 9.36】 在 互连网 络 中 ,如 果 消 息 包 的 寻 径路 径 是 预先 唯一 地 确定 好 了 的 ,与 网 络 
的 状况 无 关 , 那 么 ,这 一 类 寻 径 方 法 称 为 寻 径 方法 。 如 果 两 个 消息 包 在 某 个 结 点 产 


生 冲 突 时 ,被 阻塞 包 可 根据 目的 地 址 选择 其 他 通道 到 达 目 的 结 点 ,那么 ,这 一 类 寻 径 方法 称 
为 寻 径 方法 。 
【是 9.37】 评价 网 络 寻 径 性 能 的 参数 是 通道 流量 和 通信 时 延 。 网 络 通道 流量 可 用 传 
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输 有 关 消 息 所 使 用 的 来 表示 。 通 信 时 延 则 用 包 的 来 表示 。 
【 题 9. 38〗 多 计算 机 互连网 络 中 会 出 现 4 种 通信 和 模式。 一 对 一 的 通信 模式 称 为 
模式 ; 一 对 多 的 通信 模式 称 为 模式 ; 一 对 全 体 的 通信 模式 称 为 
模式 ; 多 对 多 的 通信 模式 称 为 模式 。 


4. 问答 题 


【 题 9. 39】 评价 互连网 络 性 能 的 主要 参数 有 哪些 ? 

【 题 9.40】〗 有 元 nr- 立方 体 网 络 中 ,参数 入 的 含义 是 什么 ? 它们 与 网 络 中 结 点 数 N 
满足 什么 关系 ? 

【 题 9.41】 多 级 互连网 络 的 控制 方式 指 什么 ? 通常 有 哪 几 种 ? 

【 题 9.42】 N=16 的 4 级 立方 体 互 连 网 络 ,级 号 从 输入 到 输出 为 0 一 3, 采 用 级 控制 ,如 
将 其 中 的 第 1 级 开关 处 于 * 直 连 ”, 不 能 实现 哪些 结 点 之 间 的 配对 通信 ? 为 什么 ? 

【 题 9.43】 试 比较 可 用 于 动态 互 连 的 总 线 、 交 叉 开 关 和 多 级 互连网 络 的 硬件 复杂 度 和 
带宽 。 

【 题 9.44】 什么 是 线路 交换 ? 它 有 何 优 缺点 ? 

【 题 9.45】〗 简 述 存储 转发 的 基本 思想 。 它 的 主要 缺点 是 什么 ? 

【 题 9.46】 简 述 虫 亿 方式 的 基本 思想 。 它 的 主要 优 缺 点 是 什么 ? 

【 题 9.47】 在 有 16 个 处 理 器 的 混 洗 交换 网 络 中 , 若 要 使 第 0 号 处 理 器 与 第 15 号 处 理 
器 相连 ,需要 经 过 多 少 次 均匀 洗 牌 和 交换 ? 

【 题 9.48】 列 出 互连网 络 中 的 4 种 信息 传递 方式 ,并 分 别 给 出 其 传输 时 延 公式 。 


5. 应 用 题 


【 题 9.49】 设 巨 为 交换 函数 ,o 为 均匀 洗 牌 函数 ,8 为 蝶 式 函数 ,PM2I 为 移 数 函 数 , 函 
数 的 自 变量 是 十 进 制 数 表示 的 处 理 机 编号 。 现 有 32 台 处 理 机 ,其 编号 为 0,1,2,… ,31。 

(1) 分 别 计 算 下 列 互 连 函 数 。 

E(12) o(8) B(9) PM2I43(28) Eo(o(4)) cCEo(18)) 

(2) 用 Eo。 和 a 构成 均匀 洗 牌 交换 网 (每 步 只 能 使 用 E。 和 一 次 ), 网 络 直径 是 多 少 ? 从 
5 号 处 理 机 发 送 数 据 到 7 号 处 理 机 ,最 短路 径 要 经 过 几 步 ? 请 列 出 经 过 的 处 理 机 编号 。 

(3) 采用 移 数 网 络 构成 互连网 络 ,网 络 直径 是 多 少 ? 结 点 度 是 多 少 ? 与 2 号 处 理 机 上 距 
离 最 远 的 是 几 号 处 理 机 ? 

【 题 9. 50〗 设 有 一 个 4 级 立方 体 网 络 ,从 网 络 输入 端 到 输出 端的 开关 级 依 序 为 K。、 
Ki、Ks 和 Ks, 网 络 输入 端 和 输出 端的 编号 均 为 0 一 15。 对 于 下 述 连 接 , 分 别 写 出 网 络 级 控 
制 信号 和 互 连 函数 。 

(1) 网 络 实现 的 置换 连接 为 4 组 4 元 交换 ,可 以 用 循环 互 连 函 数 的 形式 表示 为 : 

(0 3)(1 2)(4 7)(5 6)(8 11)(9 10)(12 15)(13 14) 

(2) 网 络 实现 的 置换 连接 为 : 4 组 4 元 交换 十 1 组 16 元 交换 。 

【 题 9.51】 在 编号 分 别 为 0,1,2,….,F 的 16 个 处 理 器 之 间 , 要 求 按 下 列 配对 通信 : 
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(B,1)(8,2)(7,D)(6,C)(E,4)(A,0)(9,3)(5,F)。 试 选择 所 用 互连网 络 类 型 及 其 控制 方 
式 , 并 画 出 互连网 络 的 结构 ,说 明 各 级 交换 开关 的 状态 。 

【 题 9. 52】 16 台 处 理 器 用 llliac 网 络 互 连 , 写 出 Illiac 网 络 的 互 连 函 数 ,给 出 表示 任何 
一 个 处 理 器 PU; (0 二 i15) 与 其 他 处 理 器 直接 互 连 的 一 般 表 达 式 。 

【 题 9.53】 N=16 的 互连网 络 的 输入 端 号 和 输出 端 号 分 别 为 0 一 15。 若 互连网 络 实现 
的 互 连 可 以 用 互 连 函 数 表 示 为 FCzszazizo) 王 zozlizzzs 那么 ,是 否 可 以 用 循环 表示 法 表示 
出 互连网 络 实现 的 互 连 ? 如 果 可 以 ,请 写 出 循环 表示 。 

【 题 9. 54〗 N=16 的 STARAN 网 络 在 级 控 方 式 下 实现 分 组 交换 置换 ,如 果实 现 的 分 
组 交换 置换 是 : 首先 是 4 组 4 元 交换 ,然后 是 两 组 8 元 交换 ,最 后 是 一 组 16 元 交换 , 写 出 网 
络 实现 的 互 连 函数 。 

【 题 9. 55〗 具有 N= 二 2" 个 输入 端的 Omega 网 络 ,采用 单元 控制 。 

(1) N 个 输入 总 共 应 有 多 少 种 不 同 的 排列 ? 

(2) 该 Omega 网 络 通过 一 次 可 以 实现 的 置换 总 共 可 有 多 少 种 是 不 同 的 ? 

(3) 车 N= 二 8, 计 算 一 次 通过 能 实现 的 置换 数 占 全 部 排列 的 百分比 。 

【 题 9.56】 用 一 个 N=8 的 三 级 Omega 网 络 连接 8 个 处 理 机 (Po 一 Pi),8 个 处 理 机 的 
输出 端 分 别 依 序 连 接 Omega 网 络 的 8 个 输入 端 0 一 7,8 个 处 理 机 的 输入 端 分 别 依 序 连接 
Omega 网 络 的 8 个 输出 端 0 一 7。 如 果 处 理 机 Ps 要 把 数据 播送 给 处 理 机 P, 一 P, ,处 理 机 P， 
要 把 数据 播送 给 处 理 机 P; 一 P; ,那么 ,Omega 网 络 能 否 同时 为 它们 的 播送 要 求实 现 连接 ? 
画 出 实现 播送 的 Omega 网 络 的 开关 状态 图 。 

【 题 9. 57〗 试 证 明 多 级 Omega 网 络 采用 不 同 大 小 构造 块 构造 时 所 具有 的 下 列 特性 。 

(1) 一 个 kXk 开关 模块 的 合法 状态 (连接 ) 数 目 等 于 k*。 

(2) 试 计算 用 2X2 开关 模块 构造 的 64 个 输入 端的 Omega 网 络 一 次 通过 所 能 实现 置 
换 的 百分比 。 

(3) 采用 8X8 开关 模块 构造 64 个 输入 端的 Omega 网 络 ,重复 (2) 。 

(4) 采用 8X8 开关 模块 构造 512 个 输入 端的 Omega 网 络 ,重复 (2) 。 

【 题 9.58〗 现 有 16 个 处 理 器 ,编号 分 别 为 0,1,…,15, 用 一 个 N=16 的 互连网 络 互 
连 。 处 理 器 i 的 输出 通道 连接 互连网 络 的 输入 端 i ,处理 器 i 的 输入 通道 连接 互 连 网 络 的 输 
出 端 i。 当 该 互连网 络 实现 的 互 连 函 数 分 别 为 : 

(1) Cube; 

(2) PM2, 

(3) PM2_。 

(4) c 

(5) c(Co) 

时 ,分 别 给 出 与 第 13 号 处 理 器 所 连接 的 处 理 器 号 。 

【 题 9.59】 如 图 9. 1 所 示 ,输入 端 为 8 个 处 理 机 ,输出 端 为 8 个 存储 器 ,通过 三 级 立方 
体 互连网 络 连接 ,采用 级 控 方 式 。 其 中 ,所 有 交换 开关 均 为 二 功能 (控制 信号 为 “0 时 直通 ， 
为 “1” 时 交换 )。 若 级 控 信号 为 : DK。KiK;==100; @OKoKiK: 一 110; @Ko KiK;==111; 请 
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在 表 9. 1 中 填写 出 对 应 于 8 个 处 理 机 而 实际 连通 的 8 个 存储 器 的 排列 顺序 。 

























































































Ko 有 天 > 
0 一 -| 0 
1 | 友 E 1 
2 | 
3 | F 1 
4 4 
5 -|c G K 5 
6 一 | 十 :二 6 
一 -| H L 
级 0 级 | 级 2 


9.1 三 级 立方 体 互 连 网 络 连 接 





























表 9.1 题 9.59 
输出 排列 (存储 器 ) 
输入 排列 (处 理 机 ) 
Ko Ki K: 一 100 Ko KiK,=110 Ko KiK:=111 
0 
1 
2 
3 
4 
5 
6 
7 











【 题 9.60】 要 求 用 直径 最 小 的 三 维 环 网 、 六 维 二 元 超 立 方 体 和 带 环 立 方 体 (CCC) 设 计 
一 台 由 64 个 结 点 组 成 的 多 计算 机 直接 连接 网 络 。 令 d 为 网 络 的 结 点 度 ,D 为 直径 ,! 为 链 
路 总 数 。 假 设 网 络 的 性 能 可 用 (CdXDX 关 2) :来 衡量 , 试 根据 其 性 能 列表 排出 上 述 3 种 网 络 
的 名 次 。 

【 题 9.61】 假设 循环 移 数 网 络 有 64 个 结 点 , 记 为 No ,Ni,…, Nes, 且 网 络 链 路 能 双向 
工作 。 

(1) 列 出 该 网 络 从 结 点 No 出 发 .正好 以 三 步 可 到 达 的 所 有 结 点 。 

(2) 指出 数据 从 任意 一 个 结 点 N; 传 送 至 另 一 个 结 点 Nj; 所 需 的 最 少 寻 径 步 的 最 小 上 界 。 


题 解 


1. 概念 题 


【是 9.1】 解释 以 下 名 词 
互连网 络 一 一 一 种 由 开关 元 件 按照 一 定 的 拓扑 结构 和 控制 方式 构成 的 网 络 , 用 来 实现 
计算 机 系统 中 结 点 之 间 的 相互 连接 。 在 拓扑 上 ,互连网 络 是 输入 结 点 到 输出 结 点 之 间 的 一 
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组 互 连 或 映像 。 

互 连 函数 一 一 用 变量 x 表示 输入 ,用 函数 f(z) 表 示 输 出 。 则 f(x) 表示: 在 互 连 函 数 f 
的 作用 下 ,输入 端 工 连接 到 输出 端 F(z)。 它 反映 了 网 络 输入 端 数组 和 输出 端 数组 之 间 对 应 
的 置换 关系 或 排列 关系 ,所 以 互 连 函 数 有 时 也 称 为 置换 函数 或 排列 函数 。 

网 络 规模 一 一 指 互连网 络 中 结 点 的 个 数 。 它 表示 该 网 络 所 能 连接 的 部 件 的 数量 。 

结 点 度 一 一 指 互连网 络 中 结 点 所 连接 的 边 数 (通道 数 ) 。 

结 点 距离 一 一 对 于 互连网 络 中 的 任意 两 个 结 点 ,其 距离 是 指 从 一 个 结 点 出 发 到 另 一 个 
结 点 终止 所 需要 跨越 的 边 数 的 最 小 值 。 

网 络 直径 一 一 指 互连网 络 中 任意 两 个 结 点 之 间距 离 的 最 大 值 。 

等 分 带宽 一 一 把 由 N 个 结 点 构成 的 网 络 切 成 结 点 数 相同 (N/V2) 的 两 半 , 在 各 种 切 法 
中 , 沿 切口 边 数 的 最 小 值 。 

对 称 网 络 一 一 从 任意 结 点 来 看 ,网 络 的 结构 都 是 相同 的 。 

静态 互连网 络 一 一 各 结 点 之 间 有 固定 的 连接 通路 且 在 运行 中 不 能 改变 的 网 络 。 

动态 互连网 络 一 一 由 交换 开关 构成 、 可 按 运行 程序 的 要 求 动态 地 改变 连接 状态 的 网 络 。 

虚拟 通道 一 一 虚拟 通道 是 两 个 结 点 间 的 逻辑 连接 , 它 由 源 结 点 的 片 缓冲 区 ` 结 点 间 的 物 
理 通道 以 及 接收 结 点 的 片 缓冲 区 组 成 。 

自 适应 寻 径 一 一 通信 的 通路 每 次 都 根据 通信 资源 或 者 网 络 的 情况 来 选择 ,这 样 就 可 以 
避 开 拥挤 的 或 有 故障 的 结 点 ,从 而 使 网 络 的 利用 效率 可 以 得 到 改进 。 


2. 选择 题 


【 题 9. 2】 
【 题 9. 3】 
【 题 9. 4 
【 题 9. 5】 
【是 9. 6】 
【 题 9.7】 
【 题 9. 8】 
【 题 9.9】 
【 题 9. 10】 
【 题 9.11】 
【 题 9. 12】 
【 题 9. 13】 
【 题 9. 14】 


咏 态 昔 哩 只 了 划 蓝 芒 村 葵 葵 贡 隘 


3. 填空 题 


【 题 9. 15】 
【 题 9. 16】 
【 题 9. 17】 
【 题 9. 18】 


: 互 连 结构 、 开 关 元 件 \ 控 制 方式 
: 可 扩展 性 

: 互 连 函数 、 输 入、 输出 

: 1110.0101.0110、1010 


驴 防 防 芒 
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【 题 9.19】 答 : 2、15 

【 题 9.20〗 答 : zz :… 元 ;…ZiZoze1 

【 题 9.21】 答 : [logsN/2 | 

【 题 9.22】 答 : 全 “0”、 全 “1” 

【 题 9.23〗 答 : 2 

【 题 9.24】 答 : 边 数 (通道 数 )\ 人 度 .出 度 

【 送 9.25 答 ，2.1N 一 1.1 

【 题 9.26】 答 : 开关 模块 .控制 方式 、 级 间 互 连 模式 

【 题 9.27】 答 : 直送 、 交 又 、 上 播 、 下 播 

【 题 9.28〗 答 : logsN、N/2、log:NXN/2 

【 题 9.29】 答 : 交换 、 移 数 

【 题 9.30】 答 : 部 分 级 

【 题 9.31】 答 : 立方 体 .部 分 级 

【 题 9.32】 答 : 7 

【 题 9.33】〗 答 : 包 、 固 定 的 、 可 变 的 、 片 

【 题 9.34】 答 : 线路 交换 、 包 交换 ,存储 转发 .虚拟 直通 、 虫 蚀 

【 题 9.35】 答 : 虚拟 直通 寻 径 方法 .阻塞 流 控 制 方法 、 扬 弃 并 重 发 方法 .阻塞 后 绕道 
传送 

【 题 9.36】 答 : 确定 、 自 适应 

【 题 9.37】 答 : 通道 数 .最 大 传输 时 间 

【 题 9.38〗 答 : 单 播 . 选 播 广 播 . 会 议 

4. 问答 题 


【 题 9.39】 答 : 外 通信 时 延 一 一 从 源 结 点 到 目的 结 点 传送 一 条 消息 所 需 的 总 时 间 。 
加 网络 时 延 一 一 通道 时 延 与 选 路 时 延 的 和 。 它 是 由 网 络 硬件 特征 决定 的 ,与 程序 行为 和 网 
络 传输 状态 无 关 。 回 端口 带宽 一 -单位 时 间 内 从 该 端口 传送 到 其 他 端口 的 最 大 信息 量 。 
四 网 络 的 聚集 带宽 一 一 网 络 从 一 半 结 点 到 另 一 半 结 点 ,单位 时 间 内 能 够 传送 的 最 大 信息 量 。 
加 等 分 带宽 一 一 等 分 带宽 与 等 分 宽度 对 应 的 切 平面 中 ,所 有 边 合 起 来 单位 时 间 所 能 传送 的 
最 大 信息 量 。 

【 题 9.40】 答 : 参数 是 立方 体 的 维 数 ,k 是 基数 或 者 说 是 沿 每 个 方向 的 结 点 数 (多 重 
性 )。 这 两 个 数 与 网 络 中 结 点 数 N 的 关系 为 : N= 二 k", (n= 二 logN ) 。 

【 题 9.41】 答 : 控制 方式 是 指 对 各 个 开关 模块 进行 控制 的 方式 , 它 可 以 有 以 下 3 种 。 

(1) 级 控制 : 每 一 级 的 所 有 开关 只 用 一 个 控制 信号 进行 控制 ,这 些 开关 只 能 同时 处 于 
同一 种 状态 。 

(2) 单元 控制 : 每 一 个 开关 都 有 一 个 独立 的 控制 信号 ,可 各 自 处 于 不 同 的 状态 。 

(3) 部 分 级 控制 : 第 i 级 的 所 有 开关 分 别 用 i 十 1 个 信号 控制 ,0 过;i 委 2 一 1,.2 为 级 数 。 

【 题 9.42】 答 : 不 能 实现 含 Ci 的 配对 通信 。 即 0.1、.4.5.8、.9、C、D 不 能 与 2.3.6.7、A、 
B、E、F 之 间 通 信 。 

因为 CCzszszizo) 与 zszzzizo 之 间 , 第 1 级 开关 为 “ 直 连 ”, 则 zi 为 “0 的 不 能 与 zi 为 
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“1” 的 处 理 机 号 通信 , 即 号 为 X X0X 的 处 理 机 不 能 与 号 为 XX1X 的 处 理 机 配对 通信 。 

【 题 9. 43〗 答 : 总 线 互 连 的 复杂 性 最 低 , 成 本 也 是 最 低 。 其 缺点 是 每 台 处 理 机 可 用 的 
带宽 较 罕 。 

交叉 开关 是 最 昂贵 的 ,因为 其 硬件 复杂 性 以 w* 上 升 ,所 以 其 成 本 最 高 。 但 是 交叉 开关 
的 带宽 和 寻 径 性 能 最 好 。 当 网 络 的 规模 较 小 时 , 它 是 一 种 理想 的 选择 。 

多 级 互连网 络 的 复杂 度 和 带宽 介 于 总 线 和 交叉 开关 之 间 , 是 一 种 折 中 方案 。 其 主要 优 
点 是 采用 模块 化 结构 ,可 扩展 性 较 好 。 不 过 ,其 时 延 随 网 络 级 数 的 增加 而 上 升 。 另 外 ,由 于 
其 硬件 复杂 度 比 总 线 高 很 多 ,其 成 本 也 不 低 。 

【 题 9.44】 答 : 线路 交换 是 一 种 消息 寻 径 方式 。 在 这 种 方式 下 ,在 传递 一 个 信息 之 前 ， 
需要 先 建立 一 条 从 源 结 点 到 目的 结 点 的 物理 通路 ,然后 再 传递 信息 。 

优点 : 传输 带宽 较 大 ,平均 传输 时 延 较 小 ,而 且 使 用 的 缓冲 区 小 。 因 而 适合 于 具有 动态 
和 突 发 性 的 大 规模 并 行 处 理 数据 的 传送 。 

缺点 : 需要 频繁 地 建立 源 结 点 到 目的 结 点 的 物理 通路 ,时 间 开 销 会 很 大 。 

【 题 9.45】〗 答 : 存储 转发 是 最 简单 的 分 组 交换 方式 。 在 这 种 方式 中 , 包 是 信息 传递 的 
基本 单位 。 包 从 源 结 点 经 过 一 系列 中 间 结 点 到 达 目 的 结 点 。 存 储 转 发 要 求 所 经 过 的 每 个 中 
间 结 点 都 要 设置 一 个 包 缓冲 器 ,用 于 保存 所 传递 的 包 。 当 一 个 包 到 达 某 个 中 间 结 点 时 ,该 结 
点 先 把 这 个 包 全 部 存储 起 来 ,然后 在 出 口 链 路 可 用 而 且 下 一 个 结 点 的 包 缓 冲 器 也 可 用 的 情 
况 下 ,传递 给 下 一 个 结 点 。 

主要 缺点 : 四 包 缓冲 区 大 ,不 利于 VLSI 实现 ; 思 网 络 时 延 大 ,与 结 点 距离 成 正比 。 

【 题 9.46】 答 : 在 虫 蚀 方式 中 ,把 信息 包 * 切 割 ?成 更 小 的 单位 一 一 片 ”, 信 息 包 中 各 片 
的 传送 是 按 流水 方式 进行 的 。 当 一 个 结 点 把 头 片 送 到 下 一 个 结 点 后 ,如 果 结 点 的 输出 链 路 
空闲 ,该 片 立即 传送 到 下 一 个 结 点 。 如 果 整 条 链 路 都 空闲 ,该 片 就 可 以 立即 直达 目的 结 点 。 
当 输 出 通路 忙 时 , 结 点 把 该 片 存储 到 缓冲 器 中 ,直到 输出 链 路 空闲 。 头 片 送 到 下 一 个 结 点 
后 ,就 可 以 把 后 面 的 各 个 片 也 依次 送出 , 头 片 每 向 前 传送 一 个 结 点 ,其 他 数据 片 就 跟着 相应 
地 向 前 “蠕动 一步, 就 好 像 一 条 虫 那样 蠕动 前 进 。 一 个 结 点 一 旦 开始 传送 一 个 包 中 的 头 片 
后 ,这 个 结 点 就 必须 等 待 这 个 包 的 所 有 片 都 送出 去 后 ,才能 传送 其 他 包 。 不 同 包 的 片 不 能 混 
合 在 一 起 传送 。 

优点 : 每 个 结 点 的 缓冲 器 较 小 ,易于 VLSI 实现 ; @ 有 较 小 的 网 络 传输 延迟 ; @ 通 道 
共享 性 好 ,利用 率 高 ; @ 易 于 实现 选 播 和 广播 通信 模式 。 

缺点 : 当 消 息 的 一 片 被 阻塞 时 ,整个 消息 的 所 有 片 都 将 被 阻塞 在 所 在 结 点 ,占用 了 结 点 
资源 。 

【 题 9.47】 答 : 

N=16,” 一 4。 若 要 使 第 0 号 处 理 器 与 第 15 号 处 理 器 相连 ,需要 经 过 4 次 混 洗 和 3 次 
交换 ,如 图 9. 2 所 示 。 


E 
0 一 一 一 | 2 一 了 60 一 7 一 一 14 ly 
0: 混 洗 EE: 交换 函数 


图 9.2 4 次 混 洗 和 3 次 交换 
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【 题 9.48〗 答 : 
(1) 线路 交换 寻 径 ,传输 时 延 公式 为 : 
T= (L,/B) x D+L/B 

式 中 ,L, 为 建立 路 径 所 需 的 小 信息 包 长 ,L 为 信息 包 长 ,D 为 经 过 的 结 点 数 ,B 为 带宽 (以 下 同 )。 

(2) 存储 转发 寻 径 , 传 输 时 延 公式 为 : 

T= (L/B) xD+L/B = (D+1) XxL/B 
(3) 虚拟 直通 ,传输 时 延 公 式 为 : 
T= (Li/B)Xx D+L/B= (L; XD+L)XxL/BxSL/B 

式 中 ,L， 是 消息 的 寻 径 头 部 的 长 度 , 一 般 L 三 L XD。 

(4) 虫 孔 方式 ,传输 时 延 公 式 为 : 

T= TxXD+L/B = (Lj/B) xX D+L/B = (Ly XD+L)/Bx L/B 

式 中 ,Lj 是 片 的 长 度 , Tj 是 片 经 过 一 个 结 点 所 需 的 时 间 ,一 般 地 ,L>LjXD。 


5. 应 用 题 


【 题 9. 49】 
解 : (1) 共有 32 个 处 理 机 ,表示 处 理 机 号 的 二 进 制 地 址 应 为 5 位 。 
E;(12) = E;,(01100) = 01000(8) 
o(8) = a(01000) = 10000(16) 
BC9) = B(01001) = 11000(24) 
PM21:3(28) = 28 十 23mod32 = 4 
Eo(o(4)) = Eu(c(00100)) = 01001(9) 
o(Eo(18)) = o(E,(10010)) = o(10011) = 00111(7) 
(2) 2" 个 结 点 的 均匀 洗 牌 交换 网 的 网 络 直径 为 2n 一 1,32 个 结 点 的 均匀 洗 牌 交换 网 的 
网 络 直径 为 9。 
从 5 号 处 理 机 发 送 数据 到 7 号 处 理 机 ,最 短路 径 要 经 过 6 步 : 
00101~>00100 一 01000 一 01001~10010~10011~>00111 
(3) 网 络 直径 是 3 , 结 点 度 是 9, 与 2 号 处 理 机 距离 最 远 的 是 13、15、21、23 号 处 理 机 。 
【 题 9. 50】 
解 : (1) 要 实现 4 组 4 元 交换 的 连接 要 求 , 要 求 网 络 输入 端 对 输出 端的 连接 如 表 9. 2 所 示 。 
表 9.2 ”网络 输入 端 对 输出 端的 连接 


























十 进 制 表 示 二 进 制 表 示 十 进 制 表示 二 进 制 表示 
0 一 3 0000—>0011 8>11 1000>1011 
1 一 2 0001™0010 9 一 10 1001-~>~1010 
2 一 1 0010~>0001 10—>9 1010—>1001 
3 一 0 0011™>0000 11 一 8 1011 一 1000 
4 一 7 0100—>0111 12 一 15 1100>1111 
5 一 6 0101~~0110 13 一 14 1101~~1110 
6 一 5 0110—>0101 14™>13 1110>1101 
7 一 4 0111-~0100 15 一 12 1111 一 1100 
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由 表 中 的 二 进 制 表示 的 连接 要 求 可 见 ,互连网 络 应 实现 的 互 连 函 数 为 : 
E(xs3xsT17T0) = Zs3xs T1 To = Cl(Co(zszZzZlZo)) 

4 级 立方 体 网 络 在 级 控 方 式 下 ,实现 互 连 函数 C1(C,) 的 级 控 信和 号 应 为 : 

F= fofefifo= 0011 
(2) 为 实现 4 组 4 元 交换 十 1 组 16 元 交换 ,由 
输入 端 站 下 入 
4 组 4 元 交换 3 32007654 19 8 15 WW 3 
1 组 16 元 交换 12 13 14 158 9 10114 56 7 0 1 2 3 
可 知 ,要 求 网 络 输入 端 对 输出 端的 连接 如 表 9. 3 所 示 。 


表 9.3 网 络 输入 端 对 输出 端的 连接 


























十 进 制 表示 二 进 制 表示 十 进 制 表示 二 进 制 表示 
0 一 12 0000~1100 8 一 4 1000-~>0100 
1 一 13 0001—™1101 95 1001-~0101 
2 一 14 0010™1110 10—™6 1010-~>0110 
3 一 15 0011->~1111 11™>7 1011-~0111 
4 一 8 0100™1000 12—™0 1100—™0000 
5—9 0101-~1001 13™1 1101-~0001 
6 一 10 0110™1010 14™2 1110-~0010 
7—11 0111—™1011 15 一 3 1111-~0011 














由 表 9. 3 中 的 二 进 制 表示 的 连接 要 求 可 见 , 互 连 网络 应 实现 的 互 连 函 数 为 ， 
下 (zszzzizo) = Ty 工 ?Zizo = CC(Cz(zszsZiZo)) 
4 级 立方 体 网 络 在 级 控 方式 下 ,实现 互 连 函数 C;(C; ) 的 级 控 信 号 应 为 : 
F= fsfsfifo = 1100 
【 题 9. 51】 
解 : 16 个 处 理 器 通过 N= 二 16 的 互连网 络 互 连 ,根据 要 求 的 配对 通道 ,要 求 网络 的 16 个 
输入 端 对 16 个 输出 端的 连接 用 二 进 制 编号 表示 为 : 


0 一 A: 0000 一 1010 8 一 2: 1000—>0010 
1 一 B: 0001>1011 9—3: 1001->0011 
2 一 8: 0010 一 1000 A 一 0: 1010—>0000 
3 一 9: 0011>1001 B—>1: 1011>0001 
4—>E: 0100 一 1110 C—6:; 1100 一 0110 
5—>F: 0101 一 1111 D->~7: 1101>0111 
6 一 C: 0110 一 1100 上 一 4: 1110 一 0100 
7 一 D: 0111-~1101 F—>5: 1111>0101 
可 见 , 要 求 互 连 网 络 实现 的 互 连 函数 为 : 
f(xaxsT1T0) = Tx2 并 ITo 


可 以 用 N=16 的 n= 二 logs N= 二 4 级 的 STARAN 网 络 来 实现 要 求 的 互 连 , 并 采用 级 控 方 
式 , 且 级 控 信和 号 为 F=f3f;fi1fo 二 1010。 因 为 ,级 控 方式 的 STARAN 网 络 中 , 若 第 i 级 的 控 
制 信号 fi 二 1, 则 实现 C; 置 换 连 接 , 故 当 级 控 信号 为 F 二 1010 时 ,STARAN 网 络 实现 的 连 
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接 为 : 
Cs (Ci (zsTzZiZo)) = Tsxs 工 1Z0 

即 为 配对 通信 要 求实 现 的 互 连 函 数 。 

由 级 控 信和 号: 

fi 二 0: 使 第 i 级 开关 为 直送 状态 ; 

fi 二 1: 使 第 i 级 开关 为 交叉 状态 。 
得 知 STARAN 网 络 中 的 开关 级 K。 和 KK, 的 开关 都 为 直送 状态 ,开关 级 Ki 和 Ks 的 开关 都 为 
交叉 状态 。 

N=16 的 4 级 STARAN 网 络 的 结构 如 图 9. 3 所 示 。 


1 一 | 1 
2 一 才 2 
3 一 3 
| 4 
5 一 一 | 5 
6 6 
7 7 
入 端 出 端 

8 一 1 8 
9 一 9 
A— 

-| 

C 

D 

E 



















































































A 

B 

C 

D 

E 

FA A 下 
Ko A Ky 基 
开关 状态 :直送 交叉 直送 交 汉 


图 9.3 4 级 STARAN 网 络 的 结构 


【 题 9. 52】 
解 : Illiac 网 络 连 接 的 结 点 数 N= 二 16, 组 成 4X4 的 阵列 。 每 一 列 的 4 个 处 理 器 互 连 为 
一 个 双向 环 ,第 1 一 4 列 的 双向 环 可 分 别 用 循环 互 连 函 数 表 示 为 : 
(0 4 8 12) (1]2 8 4 0) 
《1 5 9 13) ‘(13 9 5 1 
(2 6 10 14) (14 10 6 2) 
:| 15 ll 7 3 
其 中 ,传送 方向 为 顺 时 针 的 4 个 单 向 环 的 循环 互 连 函数 可 表示 为 : 
PM24:,:(X) = X+2:*mod N= X+4 mod 16 
传送 方向 为 逆 时 针 的 4 个 单 向 环 的 循环 互 连 函 数 可 表示 为 : 
PM2 ,(X)= X—2modN=X—4mod16 
16 个 处 理 器 由 Illiac 网 络 的 水 平 螺 线 互 连 为 一 个 双向 环 ,用 循环 互 连 函 数 表示 为 : 
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OW 工业 3 4 5 6 789 011 1 13 1 1 
《5 4 13 到 11 10 9 8 76 5 4 $2 1 人 
其 中 ,传送 方向 为 顺 时 针 的 单 向 环 的 循环 互 连 函 数 可 表示 为 : 
PM2j,(X) 天 X 十 20mod N = 二 XX 十 1 mod 16 
传送 方向 为 逆 时 针 的 单 向 环 的 循环 互 连 函 数 可 表示 为 : 
PM2_,(X) = X—2'mod N= X—1 mod 16 
所 以 ,N= 二 16 的 Illiac 网 络 的 互 连 函 数 有 4 个 : PM2:o(X) 和 了 PM2::(X)。 
由 互 连 函 数 可 得 任何 一 个 处 理 器 i 直接 与 下 述 4 个 处 理 器 双向 互 连 : 
十 1 mod 16 


土 4 mod 16 





【 题 9. 53】 
解 : 已 知 N=16 的 互连网 络 实现 的 互 连 函 数 为 f(zszszizo) 一 zozizsza, 则 由 互 连 函 
数 可 得 出 16 个 结 点 之 间 的 连接 如 表 9.4 所 示 。 


表 9.4 16 个 结 点 之 间 的 连接 


























二 进 制 表示 十 进 制 表示 二 进 制 表示 十 进 制 表示 
0000~0000 0-~0 1000-~>0001 8 一 1 
0001-1000 1 一 8 1001-~1001 9 一 9 
0010-~0100 2 一 4 1010-~>0101 10™>5 
0011—™1100 3-512 1011-*1101 11—™13 
0100—™0010 4 一 2 1100->0011 12 一 3 
0101-~1010 5 一 10 1101-~~1011 13 一 11 
0110™0110 6 一 6 1110-~>0111 14 一 7 
0111—™1110 7 一 14 1111-~1111 15—15 














由 9.4 表 可 见 ,互连网 络 为 结 点 1 和 结 点 8 之 间 实 现 的 互 连 有 1~8 和 8 一 1, 这 两 个 结 
点 之 间 的 双向 互 连 可 用 循环 互 连 函 数 表示 为 (1 8)。 类 似 可 得 出 互连网 络 的 16 个 结 点 之 
间 实 现 的 双向 互 连 用 循环 表示 法 表示 为 : 

(1 8)(2 4)(3 12)(5 10)(7 14)(11 13) 

【 题 9. 54】 

解 : 设 网 络 的 16 个 输入 端 号 序列 为 : [0123456789ABCDEFJ] 

先 经 4 组 4 元 交换 后 ,序列 为 : [3 2107654BA98FEDC] 

再 经 两 组 8 元 交换 后 ,序列 为 : [45670123CDEF89AB] 

最 后 经 一 组 16 元 交换 后 ,得 出 输出 端 号 序列 为 : [BA98FEDC32107654] 

由 输入 端 号 序列 和 输出 端 号 序列 的 对 应 元 素 可 知 ,网络 实 现 的 互 连 是 : 

(0,B)(1,A)(2,9)(3,8)(4,F)(5,E)(6,D)(7,C) 

由 得 出 的 循环 互 连 函 数 可 以 写 出 一 般 化 的 互 连 函 数 为 : 

Cs (C1 (zsZzzlZo)) = Xs3x2 Tio 

其 中 ,C 为 立方 体 互 连 函数 。 

【 题 9. 55】 

解 : 略 。 
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【 题 9. 56】 

解 : Omega 网 络 使 用 的 2X2 开关 有 4 种 状态 : 直送 交叉 `、 上 播 .下 播 。 置 换 连 接 只 使 
用 直送 和 交叉 状态 ,播送 连接 还 需要 使 用 上 播 和 下 播 状 态 。 分 别 画 出 实现 处 理 机 P, 和 Ps 的 
播送 连接 要 求 使 用 的 开关 状态 ,如 果 没 有 开关 状态 和 开关 输出 端 争 用 冲突 ,就 可 以 使 用 播送 
连接 。 实 际 上 ,它们 的 播送 要 求 没有 冲突 ,因此 ,可 以 同时 实现 ,同时 实现 的 Omega 网 络 开 
关 状 态 图 如 图 9.4 所 示 。 


0 -一 二 一 0 
1 “- 了 | 


“| 一 一 一 3 
































4 = 上 二 4 
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6 —— 二 a -0 
Ye EE Ed 


9.4 Omega 网 络 开关 状态 图 
































【 题 9. 57】 

解 : (1) 一 个 kXk 开关 的 合法 状态 或 合法 连接 有 : 四 一 个 输入 端 连 接 一 个 输出 端 , 即 
一 对 一 的 置换 连接 ; @ 一 个 输入 端 连接 多 个 或 全 部 输出 端 , 即 一 对 多 的 选 播 连接 或 一 对 全 
体 的 广播 连接 。 

两 个 或 两 个 以 上 的 输入 端 连接 一 个 输出 端 是 非法 连接 。 因 此 , 某 个 输出 端 可 被 连接 到 
任意 一 个 输入 端的 连接 有 种 ,无 论 这 个 输出 端 是 被 置换 连接 还 是 被 播送 连接 。 

& 个 输出 端 被 连接 到 输入 端的 合法 连接 的 数量 为 : 

kXEkX* Xk= Rk 


[a 

(2) 用 kXk 开关 模块 构造 N 个 输入 端的 Omega 网 络 时 ,开关 级 数 为 n= 二 logiNN ,每 级 
开关 模块 数 为 N/k, 网 络 的 开关 模块 总 数 为 (N/k)logiN 。 

一 个 kXk 开关 一 对 一 连接 的 合法 状态 只 有 k 种 ,所 有 开关 都 是 一 对 一 连接 的 合法 状态 
才能 实现 一 种 一 次 使 用 网 络 的 无 冲突 置换 连接 。 因 此 ,由 (N/k)logrN 个 kXk 开关 组 成 的 
Omega 网 络 一 次 使 用 的 无 冲突 置换 连接 函数 为 : 

RowN = (peuN)E 一 NE 

网 络 可 以 实现 的 置换 连接 数 即 为 N 个 输出 端的 不 同 排序 的 排序 数 , 即 为 N1, 所 以 ， 

Omega 网 使 用 一 次 实现 的 无 冲突 置换 连接 数 占 可 以 实现 的 置换 连接 数 的 比例 为 : 
NE/N! 

若 采 用 2X2 开关 模块 构造 的 64 个 输入 端的 Omega 网 络 , 即 有 k==2, N= 二 64, 则 Omega 

网 使 用 一 次 实现 置换 连接 的 比例 为 : 


84 一 32 
641 4.95 X 10 


(3) 车 采用 8X 8 开关 模块 构造 64 个 输入 端的 Omega 网 络 , 即 有 k= 二 8,NN 王 64, 则 
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Omega 网 使 用 一 次 实现 置换 连接 的 比例 为 : 


4 < 
3.85X10 


(4) 若 采 用 8X8 开关 模块 构造 512 个 输入 端的 Omega 网 络 , 即 有 一 8, 和 N 一 512, 则 
Omega 网 使 用 一 次 实现 置换 连接 的 比例 为 : 
512s /5121 

【 题 9. 58】 

解 : (1) 由 Cubes (zszzszizo) 王 工 :zzzlizo ,得 Cubes(1101)= 0101, 即 处 理 器 13 连接 到 
处 理 器 5。 

令 Cubes (zsxzzzlizo) 一 1101 ,得 zszszizo 一 0101, 故 与 处 理 器 13 相连 的 是 处 理 器 5。 

所 以 处 理 器 13 与 处 理 器 5 双向 互 连 。 

(2) 由 PM214s==j 十 2mod 16 ,得 PM2+:(13)= 13 十 2 一 5, 即 处 理 器 13 连接 到 处 理 器 5。 

令 PM243;(J)=) 十 22mod 16 二 13, 得 j= 二 5, 故 与 处 理 器 13 相连 的 是 处 理 器 5。 

所 以 处 理 器 13 与 处 理 器 5 双向 互 连 。 

(3) 由 PM2_6()= j 一 2"mod 16 ,得 PM2_。(13)= 13 一 2* 二 12, 即 处 理 器 13 连接 到 
处 理 器 12。 

令 PM2-_6(j)== 7 一 22mod 16 = 二 13, 得 j= 二 14, 故 与 处 理 器 13 相连 的 是 处 理 器 14。 

所 以 处 理 器 13 连 至 处 理 器 12 ,而 处 理 器 14 连 至 处 理 器 13 。 

(4) 由 oCzxazzzizo) 二 zzzlzozs, 得 co(1101)= 1011, 即 处 理 器 13 连接 到 处 理 器 11 。 

令 o(zszzzlizo) 一 1101 ,得 zszrszizo 一 1110, 故 与 处 理 器 13 相连 的 是 处 理 器 14。 

所 以 处 理 器 13 连 至 处 理 器 11 ,而 处 理 器 14 连 至 处 理 器 13 。 

(5) 由 c(o(Czszzzizo)) 一 zizozszz 得 co(o(1101)) 一 0111, 即 处 理 器 13 连接 到 处 理 
器 7。 
令 o(o(zszszlzo)) 一 1101, 得 zszszizo= 0111, 故 与 处 理 器 13 相连 的 是 处 理 器 7。 
所 以 处 理 器 13 与 处 理 器 7 双向 互 连 。 
【 题 9. 59】 
解 : 8 个 处 理 机 实际 连通 的 8 个 存储 器 的 排列 顺序 如 表 9. 5 所 示 。 

表 9.5 8 个 处 理 机 实际 连通 的 8 个 存储 器 的 排列 顺序 
输入 排列 输出 排列 (存储 器 ) 
(处理 机 ) Ko Ki K: 一 100 Ko KK 一 110 KoKiK:=111 
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【 题 9. 60】 
解 : 3 种 网 络 的 性 能 如 表 9.6 所 示 。 


表 9.6 三 种 网 络 的 性 能 


























网 络 d D L (dxXDxD™! 名 次 
3 维 网 络 6 6 192 1/6912 2 
6 维 超 立 方 体 6 6 192 1/6912 2 
带 环 立 方 体 各 9 96 1/2592 1 
【 题 9. 61】 
解 : 


(1) 循环 移 数 网 络 中 ,与 任意 结 点 N;(zozizxszxs3z4zxszxox?) 相 连 的 结 点 是 与 其 距离 为 2 
整数 寡 的 结 点 。 由 此 可 得 : 

第 一 步 ， Ni ,Naz ,Ni ,Ne ,Niec,Naz 
第 二 步 , N:,Ns ,Ne ,Ni, Ns, Nios Ns» Nas Nis» Ni ,Nis,No, Na， 

Nosls Moo Na No Ns Nos Ms 
第 三 步 : Ni, Nis ,Ns ,Na ,Na ,Na ,Na » Nae» N27 » Nag » Ns s Na ,Nas， 

Ns Nis Ni NasNies NaosNos Noos Nsss Noes Neos Ness Nas 
(2) 所 需 的 最 少 寻 径 步 的 最 小 上 界 即 为 网 络 的 直径 , 故 为 : 

log:64/2 一 3 
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10.1 基本 要 求 与 难点 


10. 


10. 


1.1 基本 要 求 


(1) 掌握 有 关 多 处 理 机 的 基本 概念 。 

(2) 掌握 并 行 计算 机 系统 结构 的 分 类 ,掌握 多 处 理 机 的 通信 机 制 及 其 特点 。 
(3) 理解 多 处 理 机 的 Cache 一 致 性 问题 ,了 解 有 哪些 解决 方法 。 

(4) 熟练 掌握 监听 协议 的 基本 原理 和 实现 方法 。 

(5) 熟练 掌握 目录 协议 的 基本 原理 和 实现 方法 。 

(6) 了 解 目录 的 3 种 结构 。 

(7) 理解 处 理 机 间 的 同步 问题 ,掌握 同步 的 实现 方法 ,了 解 同 步 的 性 能 问题 。 
(8) 理解 同时 多 线程 的 概念 ,掌握 其 实现 方法 。 了 解 同 时 多 线程 的 性 能 。 
(9) 了 解 高 性 能 并 行 计算 机 系统 结构 通常 可 以 分 成 哪 几 类 ,它们 各 有 何 特点 。 
(10) 了 解 大 规模 并 行 处 理 机 MPP。 

(11) 了 解 多 处 理 机 Tl 和 Origin2000 的 组 成 结构 、 互 连 方式 以 及 特点 等 。 


1.2 难点 


(1) 多 处 理 机 的 Cache 一 致 性 问题 。 
(2) 监听 协议 的 基本 原理 和 实现 方法 。 
(3) 目录 协议 的 基本 原理 和 实现 方法 。 
(4) 处 理 机 间 的 同步 。 

(5) 同时 多 线程 。 


10.2 知识 要 点 


10. 


2.1 引言 


1. 并 行 计算 机 系统 结构 的 分 类 
在 20 世纪 90 年 代 , 忌 片 容量 ( 即 晶 体 管 数 ) 的 增加 使 得 人 们 能 够 在 一 块 芯片 上 实现 多 
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个 处 理 器 。 这 种 方法 最 初 叫 片 内 多 处 理 器 或 者 单 片 多 处 理 器 ,而 现在 则 叫 多 核 (multicore) , 因 
为 它 是 在 一 块 芯片 上 实现 多 个 处 理 器 核 。 

可 把 现 有 的 MIMD 计算 机 分 为 两 类 ,每 一 类 代表 了 一 种 存储 器 的 结构 和 互 连 策略 。 由 
于 多 处 理 机 的 规模 大 小 这 个 概念 的 含义 是 随时 间 而 变化 的 ,所 以 我 们 用 存储 器 的 组 织 结构 
来 区 分 这 些 机 器 。 

第 一 类 机 器 称 为 集中 式 共 享 存储 器 结构 。 这 类 多 处 理 机 在 目前 最 多 是 由 几 十 个 处 理 器 
构成 。 由 于 处 理 器 个 数 较 少 ,各 处 理 器 可 共享 一 个 集中 式 的 物理 存储 器 ,并 通过 总 线 或 交换 
开关 互 连 。 因 为 只 有 单一 的 主 存 , 而 且 这 个 主 存 相 对 于 各 处 理 器 的 关系 是 对 称 的 ,所 以 这 类 
机 器 经 常 称 为 对 称 式 共享 存储 器 多 处 理 机 SMP。 这 种 系统 结构 也 称 为 UMA 结构 
(Uniform Memory Access) ,这 是 因为 从 各 处 理 器 访问 存储 器 所 花 的 时 间 相同 。SMP 结构 
是 目前 最 流行 的 结构 。 

第 二 类 是 分 布 式 存储 器 多 处 理 机 。 在 这 类 机 器 中 ,存储 器 在 物理 上 是 分 布 的 。 它 支持 
构建 规模 较 大 的 多 处 理 机 系统 。 这 种 结构 要 求 有 高 带宽 的 互连网 络 。 

将 存储 器 分 布 到 各 结 点 有 两 个 优点 : 如 果 大 多 数 的 访 存 都 是 针对 本 结 点 的 本 地 存储 
器 进行 的 , 则 可 以 降低 对 存储 器 和 互连网 络 的 带宽 要 求 ; @ 对 本 地 存储 器 的 访问 延迟 时 间 
小 。 分 布 式 存储 器 系统 结构 最 主要 的 缺点 是 处 理 器 之 间 的 通信 较为 复杂 , 且 各 处 理 器 之 间 
访问 延迟 较 大 。 


2. 存储 器 系统 结构 和 通信 机 制 


1) 两 种 存储 器 系统 结构 和 通信 机 制 

如 上 所 述 ,在 大 规模 的 多 处 理 机 中 ,存储 器 在 物理 上 是 分 布 于 各 个 处 理 结 点 中 的 。 但 在 
逻辑 地 址 空间 的 组 织 方 式 以 及 处 理 器 之 间 通 信 的 实现 方法 上 ,有 以 下 两 种 方案 。 

第 一 种 方案 把 物理 上 分 离 的 所 有 存储 器 作为 一 个 统一 的 共享 多 辑 空间 进行 编 址 ,这 样 
任何 一 个 处 理 器 都 可 以 访问 该 共享 空间 中 的 任何 一 个 单元 (如 果 它 具有 访问 权 ) ,不同 处 理 
器 上 的 同一 个 物理 地 址 指向 的 是 同一 个 存储 单元 。 这 类 计算 机 被 称 为 分 布 式 共 享 存 储 器 系 
统 (DSM) 。 与 UMA 相反 ,DSM 计算 机 被 称 为 NUMA(Non-Uniform Memory Access) 计 算 
机 ,这 是 因为 其 访 存 时 间 取 决 于 数据 在 存储 器 中 的 存放 位 置 。 

另 一 种 方案 是 把 每 个 结 点 中 的 存储 器 编 址 为 一 个 独立 的 地 址 空间 ,不 同 结 点 中 的 地 址 
空间 之 间 是 相互 独立 的 。 每 个 结 点 中 的 存储 器 只 能 由 本 地 的 处 理 器 进行 访问 ,远程 的 处 理 
器 不 能 直接 对 其 进行 访问 。 

对 于 上 述 两 种 地 址 空间 的 组 织 方案 ,分 别 有 相 应 的 通信 机 制 。 对 于 共享 地 址 空间 的 
计算 机 系统 来 说 ,是 采用 共享 存储 器 通信 机 制 。 处 理 器 之 间 是 通过 用 load 和 store 指令 
对 相同 存储 器 地 址 进行 读 / 写 操作 来 实现 的 。 而 对 于 采用 多 个 独立 地 址 空间 的 计算 机 系 
统 来 说 ,数据 通信 要 通过 在 处 理 器 之 间 显 式 地 传递 消息 来 完成 ,这 称 为 消息 传递 通信 
机 制 。 

在 消息 传递 多 处 理 机 中 ,处理 器 之 间 是 通过 发 送 消息 来 进行 通信 的 ,这 些 消息 请 求 进 行 
某 些 操作 或 者 传送 数据 。 不 同 多 处 理 机 所 提供 的 消息 传递 机 制 可 能 差别 很 大 ,为 了 便于 程 
序 移植 ,人 们 提出 了 标准 的 消息 传递 库 ( 例 如 ,MPI) ,这 为 编程 人 员 实 现 消 息 传递 提供 了 有 
力 的 支持 ,使 他 们 能 很 容易 地 进行 消息 通信 。 
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2) 不 同 通信 机 制 的 优点 

每 种 通信 机 制 各 有 自己 的 优点 ,共享 存储 器 通信 的 主要 优点 如 下 。 

(1) 与 常用 的 对 称 式 多 处 理 机 使 用 的 通信 机 制 兼容 。 

(2) 当 处 理 器 之 间 通 信和 方式 复杂 或 在 执行 过 程 中 动态 变化 时 ,采用 共享 存储 器 通信 , 编 
程 容易 ,同时 在 简化 编译 器 设计 方面 也 占有 优势 。 

(3) 采用 大 家 所 熟悉 的 共享 存储 器 模型 开发 应 用 程序 ,而 把 重点 放 到 解决 对 性 能 影响 
较 大 的 数据 访问 上 。 

(4) 当 通信 数据 量 较 小 时 ,通信 开销 较 低 ,带宽 利用 较 好 。 

(5) 可 以 通过 采用 Cache 技术 来 减少 远程 通信 的 频 度 。 这 是 通过 对 所 有 数据 (包括 共 
享 的 和 私有 的 ) 进 行 Cache 缓冲 来 实现 的 。 在 后 面 我 们 将 看 到 ,Cache 不 仅 能 减少 访问 共享 
数据 的 延迟 ,而 且 能 减少 对 共享 数据 的 访问 冲突 。 

消息 传递 通信 机 制 的 主要 优点 如 下 。 

(1) 硬件 更 简单 。 特 别 是 在 与 可 扩 放 共享 存储 器 实现 方案 相 比 时 更 是 如 此 。 

(2) 通信 是 显 式 的 ,因此 更 容易 搞 清 楚 何 时 发 生 通 信和 以及 通信 开销 是 多 少 。 

(3) 显 式 通信 可 以 让 编程 者 重点 注意 并 行 计算 的 主要 通信 开销 ,使 之 有 可 能 开发 出 结 
构 更 好 、 性 能 更 高 的 并 行程 序 。 

(4) 同步 很 自然 地 与 发 送 消息 相关 联 , 能 减少 不 当 的 同步 带 来 错误 的 可 能 性 。 

最 初 的 分 布 式 存储 器 计算 机 均 采用 消息 传递 机 制 , 因 为 它 显然 比较 简单 。 但 近 些 年 来 ， 
特别 是 20 世纪 90 年 代 后 半期 以 来 设计 的 计算 机 几乎 都 采用 共享 存储 器 通信 。 

尽管 现在 通过 总 线 连接 的 对 称 式 存储 器 计算 机 在 市 场 上 仍 占 主导 地 位 ,但 从 长 远 来 看 ， 
在 技术 上 的 趋势 是 朝 着 中 等 规模 的 分 布 式 共 享 存储 器 计算 机 方向 发 展 。 


3. 并 行 处 理 面临 的 挑战 


并 行 处 理 面临 着 两 个 重要 的 挑战 ,一 个 是 程序 中 的 并 行 性 有 限 , 另 一 个 是 相对 较 大 的 通 
信 开 销 。 有 限 的 并 行 性 使 计算 机 要 达到 很 高 的 加 速 比 十 分 困难 。 这 可 以 用 Amdahl 定律 进 
行 解释 。 第 二 个 挑战 主要 是 指 多 处 理 机 中 远程 访问 的 较 大 延迟 。 在 现 有 的 计算 机 中 ,处 理 
器 之 间 的 数据 通信 大 约 需要 50 一 1000 个 时 钟 周 期 ,这 主要 取决 于 通信 机 制 、 互 连 网 络 的 种 
类 和 机 器 的 规模 。 

应 用 程序 中 并 行 性 不 足 的 问题 主要 是 通过 采用 并 行 性 更 好 的 算法 来 解决 。 而 减少 远程 
访问 延迟 则 既 可 以 依靠 系统 结构 来 实现 ,也 可 以 通过 编程 技术 来 实现 。 我 们 既 可 以 采用 硬 
件 的 方法 ,例如 用 Cache 来 缓冲 共享 数据 ; 也 可 以 采用 软件 的 方法 对 数据 重新 进行 组 织 , 使 
得 更 多 的 访问 变 成 局 部 访问 。 我 们 还 可 以 采用 预 取 或 多 线程 技术 来 减少 延迟 的 影响 。 

反映 并 行程 序 性 能 的 一 个 重要 的 度量 是 计算 /通信 比率 。 如 果 比 值 较 高 ,就 意味 着 应 用 
程序 中 相对 于 每 次 数据 通信 要 进行 较 多 的 计算 。 如 前 所 述 ,通信 在 并 行 计算 中 的 开销 是 很 
大 的 ,因而 较 高 的 计算 /通信 比率 十 分 有 益 。 通 常 状况 下 ,计算 /通信 比率 随 着 处 理 的 数据 规 
模 的 增 大 而 增加 , 随 着 处 理 器 数目 的 增加 而 减少 。 这 告诉 我 们 用 更 多 的 处 理 器 来 求解 一 个 
固定 大 小 的 问题 会 导致 不 利 因素 的 增加 ,因为 处 理 器 之 间 通 信 量 加 大 了 。 这 同时 也 告诉 我 
们 增加 处 理 器 时 应 该 调整 数据 的 规模 ,从 而 使 通信 的 时 间 尽量 保持 不 变 。 
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10. 2.2 对称 式 共享 存储 器 系统 结构 


自 20 世纪 80 年 代 以 来 , 随 着 微 处 理 器 逐渐 成 为 主流 ,人 们 设计 出 了 许多 通过 总 线 共 享 
一 个 单独 物理 存储 器 的 小 规模 多 处 理 机 。 由 于 大 容量 Cache 很 大 程度 地 降低 了 对 总 线 带宽 
的 要 求 , 当 处 理 机 规模 较 小 时 ,这 种 计算 机 十 分 经 济 。 以 往 的 这 种 计算 机 一 般 是 将 CPU 和 
Cache 做 在 一 块 板 上 ,然后 插入 底板 总 线 。 后 来 ,每 块 板 上 的 处 理 器 数目 达到 了 4 个 ,而 近 
些 年 , 则 能 在 一 个 单独 的 芯片 上 实现 2 一 8 个 处 理 器 核 。 例 如 ,Sun 公司 在 2006 年 发 布 的 
Tl 就 是 一 个 8 核 的 多 处 理 器 。 

对 称 式 共享 存 储 器 系统 结构 一 般 都 支持 对 共享 数据 和 私有 数据 的 Cache 缓存 。 私 有 数 
据 是 指 只 供 一 个 处 理 器 使 用 的 数据 ,而 共享 数据 则 是 指 供 多 个 处 理 器 共同 使 用 的 数据 。 处 
理 器 之 间 可 以 通过 读 / 写 共享 数据 来 实现 通信 。 

私有 数据 进入 Cache, 使 得 处 理 器 对 它们 的 访问 可 以 在 Cache 中 完成 ,从 而 减少 平均 访 
存 时 间 和 减少 对 存储 器 带宽 的 要 求 。 当 允许 共享 数据 进入 Cache 时 ,共享 数据 可 能 会 在 多 
个 Cache 中 被 复制 ,这 样 相 应 的 处 理 器 就 可 以 在 自己 的 Cache 中 找到 这 些 数据 。 这 样 做 不 
仅 可 以 减少 访 存 时 间 和 对 存储 器 带宽 的 要 求 ,而 且 还 可 以 减少 多 个 处 理 器 同时 读 取 共 享 数 
据 所 产生 的 冲突 。 不 过 ,共享 数据 进入 Cache 也 带 来 了 一 个 新 的 问题 , 即 Cache 的 一 致 性 
问题 。 


1. 多 处 理 机 Cache 一 致 性 


如 果 允 许 共享 数据 进入 Cache, 那 么 就 可 能 出 现 多 个 处 理 器 的 Cache 中 都 有 同一 存储 
器 块 的 副本 , 当 其 中 某 个 处 理 器 对 其 Cache 中 的 数据 进行 修改 后 ,就 会 使 得 其 Cache 中 的 数 
据 与 其 他 Cache 中 的 数据 不 一 致 。 这 就 是 多 处 理 机 的 Cache 一 致 性 问题 。 

对 于 一 致 性 ,我 们 可 以 有 这 样 的 说 法 : 如 果 对 某 个 数据 项 的 任何 读 操作 均 可 得 到 其 最 
新 写 人 的 值 , 则 认为 这 个 存储 系统 是 一 致 的 。 

如 果 一 个 存储 器 满足 以 下 三 点 , 则 称 该 存储 器 是 一 致 的 。 

(1) 处 理 器 P 在 对 存储 单元 X 进行 一 次 写 之 后 又 对 X 进行 读 , 在 这 读 和 写 之 间 没 有 其 
他 处 理 器 对 X 进行 写 , 则 P 读 到 的 值 总 是 刚 写 进去 的 值 。 

(2) 处 理 器 P 对 存储 单元 X 进行 写 之 后 , 另 一 处 理 器 Q 对 X 进行 读 , 在 这 读 和 写 之 间 
没有 其 他 对 X 的 写 , 则 Q 读 到 的 值 应 为 P 写 进 去 的 值 。 

(3) 对 同一 存储 单元 的 写 是 串 行 化 的 。 即 任意 两 个 处 理 器 对 同一 存储 单元 的 两 次 写 ， 
从 各 个 处 理 器 的 角度 看 来 顺序 都 是 相同 的 。 

第 一 条 属性 保证 了 程序 顺序 ,即使 在 单 处 理 机 中 也 要 求 如 此 。 第 二 条 属性 给 出 了 存储 
器 一 致 性 的 概念 。 如 果 一 个 处 理 器 不 断 地 读 取 到 旧 的 数据 ,我 们 可 以 肯定 地 说 这 个 存储 器 
是 不 一 致 的 。 

把 写 操 作 串 行 化 ,能 使 得 对 同一 存储 器 单元 所 进行 的 写 操作 顺序 在 所 有 处 理 器 看 来 都 
是 相同 的 。 这 种 属性 称 为 写 串 行 化 。 

为 了 简化 起 见 ,在 后 面 的 讨论 中 做 以 下 假设 : 直到 所 有 的 处 理 器 均 看 到 了 写 的 结果 ， 
这 个 写 操作 才 算 完成 ; 思 处 理 器 的 任何 访 存 均 不 能 改变 写 的 顺序 。 就 是 说 ,允许 处 理 器 对 
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读 进行 重 排序 ,但 必须 以 程序 规定 的 顺序 进行 写 。 
2. 实现 一 致 性 的 基本 方案 


在 支持 Cache 一 致 性 的 多 处 理 机 中 ,Cache 实现 了 共享 数据 的 迁移 和 复制 功能 。 共 享 
数据 的 迁移 是 把 远程 的 共享 数据 复制 一 份 , 迁 入 本 地 Cache 供 本 处 理 器 使 用 ,从 而 减少 了 对 
远程 共享 数据 的 访问 延迟 ,也 减少 了 对 共享 存储 器 带宽 的 要 求 。 共 享 数据 的 复制 则 是 把 多 
个 处 理 器 需要 同时 读 取 的 共享 数据 在 这 些 处 理 器 的 本 地 Cache 中 各 存放 一 个 副本 。 共 享 数 
据 的 迁移 和 复制 对 于 提高 访问 共享 数据 的 性 能 来 说 是 非常 重要 的 。 

在 多 个 处 理 器 中 用 来 维护 一 致 性 的 协议 称 为 Cache 一 致 性 协议 。 实 现 Cache 一 致 性 协 
议 的 关键 是 跟踪 共享 数据 块 的 状态 。 目 前 有 两 类 协议 ,它们 采用 了 不 同 技术 来 跟踪 共享 数 
据 的 状态 。 

(1) 目录 式 协议 一 一 物理 存储 器 中 数据 块 的 共享 状态 被 保存 在 一 个 称 为 目录 的 地 
方 。 目 录 式 协议 的 实现 开销 比 监听 式 协 议 的 稍微 大 一 些 , 但 可 用 于 实现 更 大 规模 的 多 处 
理 机 。 

(2) 监听 式 协议 一 一 当 物 理 存 储 器 中 的 数据 块 被 调和 Cache 时 ,其 共享 状态 信息 与 该 
数据 块 一 起 放 在 该 Cache 中 。 当 某 个 Cache 需要 访问 存储 器 时 , 它 会 把 请 求 放 到 总 线 上 广 
播 出 去 ,其 他 各 个 Cache 控制 器 通过 监听 总 线 来 判断 它们 是 否 有 总 线 上 请 求 的 数据 块 。 如 
果 有 ,就 进行 相应 的 操作 。 

可 以 采用 两 种 方法 来 解决 上 述 的 Cache 一 致 性 问题 : 写作 废 协议 , 写 更 新 协议 。 

(1) 写作 上 废 协议 : 在 处 理 器 对 某 个 数据 项 进行 写 人 之 前 , 它 必 须 先 拥 有 对 该 数据 项 的 
唯一 的 访问 权 。 这 是 通过 把 所 有 其 他 Cache 中 的 副本 全 部 作废 来 实现 的 。 它 是 目前 最 常用 
的 协议 ,无 论 是 采用 监听 协议 还 是 采用 目录 协议 都 是 如 此 。 

如 果 两 个 处 理 器 要 同时 进行 写 操作 , 则 它们 竞争 访问 权 。 它 们 中 只 有 一 个 会 在 竞争 中 
获胜 一 一 获得 访问 权 , 而 另 一 个 处 理 器 中 的 副本 以 及 其 他 处 理 器 中 的 副本 (如 果 有 的 话 ) 都 
会 被 作废 。 竞 争 失 败 的 处 理 器 要 完成 写 操作 ,就 必须 先 获得 一 份 新 的 数据 副本 。 该 副本 已 
经 包含 更 新 后 的 数据 。 显 然 , 这 种 协议 保证 了 写 操作 的 串 行 化 。 

(2) 写 更 新 协议 。 在 这 种 协议 中 , 当 一 个 处 理 器 对 某 数据 项 进行 写 信 时, 它 把 该 新 数据 
广播 给 所 有 其 他 Cache。 这 些 Cache 用 该 新 数据 对 其 中 的 副本 (如 果 有 的 话 ) 进 行 更 新 。 当 
然 , 如 果 知 道 其 他 Cache 中 都 没有 相应 的 副本 ,就 不 必 进 行 广播 和 更 新 。 这 样 处 理 能 够 减少 
实现 该 协议 所 需 的 带宽 。 

写 更 新 和 写作 废 协议 在 性 能 上 的 主要 差别 如 下 。 

(1) 在 对 同一 个 数据 进行 多 次 写 操作 而 中 间 无 读 操作 的 情况 下 , 写 更 新 协议 需 进行 多 
次 写 广播 操作 ,而 写作 废 协议 只 需 一 次 作废 操作 。 

(2) 在 对 同一 Cache 块 的 多 个 字 进 行 写 操作 的 情况 下 , 写 更 新 协议 对 于 每 一 个 写 操作 
都 要 进行 一 次 广播 ,而 写作 上 废 协议 仅 在 第 一 次 写 时 进行 作废 操作 即 可 。 写 作废 是 针对 
Cache 块 进行 操作 ,而 写 更 新 则 是 针对 字 ( 或 字 节 ) 进 行 。 

(3) 考虑 从 一 个 处 理 器 A 进行 写 操作 后 到 另 一 个 处 理 器 B 能 读 到 该 写 入 数据 之 间 的 
延迟 时 间 。 在 写 更 新 协议 中 ,这 个 延迟 时 间 比 较 小 ,因为 它 在 进行 写 操作 时 ,立即 更 新 了 所 
有 其 他 Cache 中 的 副本 ,包括 Cache B 中 的 副本 (假设 有 此 副本 )。 而 在 写作 废 协 议 中 ,由 于 


第 10 章 多 处 理 机 229 





在 处 理 器 A 进行 写 操作 时 已 经 作废 了 Cache B 中 的 副本 ,所 以 当 处 理 器 B 进行 读 操作 时 需 
要 等 待 , 直 到 新 的 副本 被 调 入 Cache 并 送 给 它 。 
后 面 我 们 只 关注 写作 废 协议 。 


3. 监听 协议 的 实现 


实现 监听 协议 的 关键 有 3 个 方面 : 处 理 器 之 间 通 过 一 个 可 以 实现 广播 的 互 连 机 制 相 
连 。 通 常 采 用 的 是 总 线 。 回 当 一 个 处 理 器 的 Cache 响应 本 地 CPU 的 访问 时 ,如 果 它 涉及 全 
局 操作 (例如 作废 等 ) ,其 Cache 控制 器 就 要 在 获得 总 线 的 控制 权 后 ,在 总 线 上 发 出 相应 的 消 
息 。 图 所 有 处 理 器 都 一 直 在 监听 总 线 , 当 它们 检测 到 总 线 上 的 地 址 在 它们 的 Cache 中 有 副 
本 时 , 则 响应 该 消息 ,并 进行 相应 的 操作 。 

获取 总 线 控制 权 的 顺序 性 保证 了 写 操作 的 串 行 化 ,因为 当 两 个 处 理 器 要 同时 对 同一 数 
据 块 进行 写 操作 时 ,必然 是 只 有 其 中 一 个 处 理 器 先 获 得 总 线 控制 权 ,并 作废 所 有 其 他 处 理 器 
上 的 相关 副本 。 另 一 处 理 器 要 等 待 前 一 个 处 理 器 的 写 操作 完成 后 ,再 排队 竞争 总 线 控制 权 。 
这 保证 了 写 操作 严格 地 按 顺 序 进行 。 所 有 的 一 致 性 协议 都 要 采用 某 种 方法 来 保证 对 同一 个 
Cache 块 的 写 访问 的 串 行 化 。 

虽然 不 同 的 监听 协议 在 具体 实现 上 有 些 差 别 ,但 在 许多 方面 是 相同 的 。Cache 发 送 到 
总 线 上 的 消息 主要 有 以 下 两 种 。 

(1) RdMiss 一 一 读 不 命中 。 

(2) WtMiss 一 一 写 不 命中 。 

RdMiss 和 WtMiss 分 别 表示 本 地 CPU 对 Cache 进行 读 访问 和 写 访问 时 不 命中 ,这 时 
都 需要 通过 总 线 找到 相应 数据 块 的 最 新 副本 ,然后 调和 人 本 地 Cache。 对 于 写 直 达 Cache 来 
说 ,由 于 所 有 写 入 的 数据 都 同时 被 写 回 存储 器 ,所 以 其 最 新 值 总 可 以 从 存储 器 中 找到 。 而 对 
于 写 回 法 Cache 来 说 ,难度 就 大 一 些 了 ,因为 这 个 最 新 副本 有 可 能 是 在 其 他 某 个 处 理 器 的 
Cache 中 (尚未 写 回 存储 器 ) 。 在 这 种 情况 下 ,将 由 该 Cache 向 请 求 方 处 理 器 提供 该 块 ,并 终 
止 由 RdMiss 或 WtMiss 所 引发 的 对 存储 器 的 访问 。 

有 的 监听 协议 还 增设 了 一 条 Invalidate 消息 ,用 来 通知 其 他 各 处 理 器 作废 其 Cache 中 
相应 的 副本 。Invalidate 和 WtMiss 的 区 别 在 于 Invalidate 不 引起 调 块 。 

在 采用 写 回 法 的 多 Cache 中 ,我 们 可 以 直接 利用 “修改 位 ”来 实现 一 致 性 。 将 一 个 数据 
进行 写 人 时 ,只 写 人 Cache, 而 不 直接 写 回 存储 器 。 这 时 这 个 块 的 修改 位 被 置 位 ,表示 该 块 
中 保存 的 是 整个 系统 中 唯一 的 最 新 副本 ,存储 器 中 的 副本 是 过 时 了 的 ,而 且 所 有 其 他 Cache 
中 也 没有 其 副本 。 

每 个 处 理 器 (实际 上 是 Cache 控制 器 ) 都 监听 其 他 处 理 器 放 到 总 线 上 的 地 址 ,如 果 某 个 
处 理 器 发 现 它 拥有 被 请 求 数 据 块 的 一 个 最 新 副本 , 它 就 把 这 个 数据 块 送 给 发 出 请 求 的 处 理 
器 。 与 写 直 达 法 相 比 ,尽管 写 回 法 在 实现 的 复杂 度 上 有 所 增加 .但 由 于 写 回 法 Cache 所 需 的 
存储 器 带宽 较 低 , 它 在 多 处 理 机 实现 上 仍 很 受 欢 迎 。 在 后 面 的 讨论 中 ,我 们 只 考虑 写 回 法 
Cache。 

Cache 本 来 就 有 的 标识 (tag) 可 直接 用 来 实现 监听 。 通 过 把 总 线 上 的 地 址 和 Cache 内 
的 标识 进行 比较 ,就 能 找到 相应 的 Cache 块 (如 果 有 ) ,然后 对 其 进行 相应 的 处 理 。 每 个 块 的 
有 效 位 使 得 我 们 能 很 容易 地 实现 作废 机 制 。 当 要 作废 一 个 块 时 ,只 需 将 其 有 效 位 置 为 无 效 
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即 可 。 对 于 CPU 读 不 命中 的 情况 ,处 理 比较 简单 ,Cache 控制 器 向 总 线 发 RdMiss 消息 ,并 
启动 从 主 存 的 读 块 操作 ,准备 调和 人 Cache。 当 然 , 如 果 存 储 器 中 的 块 不 是 最 新 的 ,最 新 的 副 
本 是 在 某 个 Cache 中 ,就 要 由 该 Cache 提供 数据 ,并 终止 对 存储 器 的 访问 。 

对 于 写 操 作 来 说 ,我 们 希望 能 够 知道 其 他 处 理 器 中 是 否 有 该 写 入 数据 的 副本 ,因为 如 果 
没有 ,那么 就 不 用 把 这 个 写 操 作 放 到 总 线 上 ,从 而 减少 所 需要 的 带宽 以 及 这 个 写 操作 所 花 的 
时 间 。 这 可 以 通过 给 每 个 Cache 块 增设 一 个 共享 位 来 实现 。 该 共享 位 用 来 表示 该 块 是 被 多 
个 处 理 器 所 共享 (共享 位 为 "1”) ,还 是 仅 被 某 个 处 理 器 所 独占 (共享 位 为 “0”)。 拥 有 该 数据 
块 的 唯一 副本 的 处 理 器 通常 被 称 为 该 块 的 拥有 者 。 

当 一 个 块 处 于 独占 状态 时 , 其 他 处 理 器 中 没有 该 块 的 副本 ,因此 不 必 向 总 线 发 
Invalidate 消息 。 否 则 就 是 处 于 共享 状态 ,这 时 要 向 总 线 发 Invalidate 消息 ,作废 所 有 其 他 
Cache 中 的 副本 ,同时 将 本 地 Cache 中 该 块 的 共享 标志 位 置 “0”。 如 果 后 面 又 有 男 一 处 理 器 
再 读 这 个 块 , 则 其 状态 将 再 次 转化 为 共享 。 由 于 每 个 Cache 都 在 监听 总 线 上 的 消息 ,所 以 它 
们 知道 什么 时 候 另 一 个 处 理 器 请 求 访问 该 块 ,从 而 把 其 状态 改 为 共享 。 

每 一 次 总 线 操 作 都 要 检查 Cache 中 的 地 址 标识 ,这 会 打扰 处 理 器 对 Cache 的 访问 。 必 
须 设法 减少 这 种 打扰 。 一 种 方法 是 设置 两 套 标 识 , 分 别 用 于 处 理 来 自 CPU 的 访问 和 来 自 
总 线 的 访问 。 当 然 ,Cache 不 命中 时 ,处 理 器 要 对 两 套 标识 进行 操作 。 类 似 地 ,如 果 监 听 到 
了 一 个 相 匹 配 的 地 址 ,也 要 对 两 套 Cache 的 标识 进行 操作 。 

在 多 级 Cache 中 ,还 可 以 采用 另 一 种 方法 , 即 把 监听 的 操作 请 求 交 给 第 二 级 Cache 来 处 
理 。 由 于 处 理 器 只 在 第 一 级 Cache 不 命中 时 才 会 访问 第 二 级 Cache, 而 第 一 级 Cache 的 命 
中 率 往往 都 很 高 ,所 以 这 种 方法 是 可 行 的 。 不 过 , 当 监听 机 制 在 第 二 级 Cache 中 发 现 相 匹配 
的 项 目 时 ,就 会 与 处 理 器 争 用 第 一 级 Cache。 在 监听 机 制 获得 使 用 权 后 ,要 修改 状态 并 可 能 
需要 访问 第 一 级 Cache 中 的 数据 。 此 外 ,这 两 级 Cache 必须 满足 包容 关系 , 即 第 一 级 Cache 
中 的 内 容 是 第 二 级 Cache 中 内 容 的 一 个 子 集 。 








10.2.3 分 布 式 共 享 存 储 器 系统 结构 


1. 目录 协议 的 基本 思想 


监听 协议 直接 利用 了 系统 中 已 经 存在 的 总 线 和 Cache 中 的 状态 位 。 因 而 它 具 有 实现 容 
易 .成 本 较 低 的 优点 。 然 而 , 当 系 统 的 规模 变 大 时 , 它 又 是 个 致命 的 弱点 。 大 量 的 总 线 广播 
操作 会 使 得 总 线 很 快 就 成 为 系统 的 瓶颈 。 广 播 和 监听 的 机 制 使 得 监听 一 致 性 协议 的 可 扩 放 
性 很 差 。 

为 了 实现 较 大 规模 的 可 扩 放 的 共享 存储 器 多 处 理 机 系统 ,需要 寻找 新 的 一 致 性 协议 来 
代替 监听 协议 ,这 就 是 前 面 提 过 的 目录 协议 。 另 外 ,总 线 的 可 扩 放 性 不 好 ,可 以 改 用 可 扩 放 
性 更 好 的 互连网 络 。 互 连 网 络 能 很 高 效 地 实现 点 到 点 的 通信 。 目 录 协 议 采 用 了 一 个 集中 的 
数据 结构 一 一 目录 。 对 于 存储 器 中 的 每 一 个 可 以 调 人 Cache 的 数据 块 ,在 目录 中 设置 一 条 
目录 项 ,用 于 记录 该 块 的 状态 以 及 哪些 Cache 中 有 副本 等 相关 信息 。 这 样 ,对 于 任何 一 个 数 
据 块 ,都 可 以 快速 地 在 唯一 的 一 个 位 置 中 找到 相关 的 信息 。 这 使 得 目录 协议 避免 了 广播 
操作 。 
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目录 法 常 采用 位 向 量 的 方法 来 记录 哪些 Cache 中 有 副本 ,该 位 向 量 中 的 每 一 位 对 应 于 
一 个 处 理 器 。 这 个 位 向 量 的 长 度 与 处 理 器 的 个 数 成 正比 。 为 便于 讨论 ,后 面 将 把 由 位 向 量 
指定 的 处 理 机 的 集合 称 为 共享 集 S。 目 录 协 议 根据 该 项 目 中 的 信息 以 及 当前 要 进行 的 访问 
操作 ,依次 对 相应 的 Cache 发 送 控制 消息 ,并 完成 对 目录 项 信息 的 修改 。 此 外 ,还 要 向 请 求 
处 理 器 发 送 响应 信息 。 

为 了 提高 可 扩 放 性 ,可 以 把 存储 器 及 相应 的 目录 信息 分 布 到 各 结 点 中 。 每 个 结 点 的 目 
录 中 的 信息 是 对 应 于 该 结 点 存储 器 中 的 数据 块 的 。 这 使 得 对 于 不 同 目录 项 的 访问 可 以 在 不 
同 的 结 点 中 并 行进 行 。 当 处 理 器 进行 访 存 操作 时 ,如 果 其 地 址 落 在 本 地 存储 器 的 地 址 范围 
中 ,就 是 本 地 的 ,否则 就 是 远程 的 ,这 是 由 结 点 内 的 控制 器 根据 访问 地 址 来 判定 的 。 

对 于 目录 法 来 说 ,最 简单 的 实现 方案 是 对 于 存储 器 中 每 一 块 都 在 目录 中 设置 一 项 。 在 
这 种 情况 下 ,目录 中 的 信息 量 与 MXN 成 正比 。 其 中 ,M 表示 存储 器 中 存储 块 的 总 数量 , N 
表示 处 理 器 的 个 数 。 由 于 M 二 KXN, 其 中 ,K 是 每 个 处 理 机 中 存储 块 的 数量 ,所 以 如 果 天 
保持 不 变 , 则 目录 中 的 信息 量 就 与 N? 成 正比 。 显 然 这 种 方法 的 可 扩 放 性 不 好 。 只 有 在 处 理 
器 个 数 比较 少 的 情况 下 才 是 可 行 的 。 

当 处 理 器 数量 较 多 时 ,需要 采用 可 扩 放 性 更 好 的 方法 ,例如 只 给 那些 已 经 
块 (而 不 是 所 有 的 块 ) 设 置 目录 项 ,或 者 让 每 个 目录 项 的 位 数 固定 。 后 面 将 进 
方法 。 

与 监听 协议 类 似 , 目录 协议 也 必须 实现 两 种 基本 操作 : 处 理 读 不 命中 和 处 理 对 共享 \ 干 
净 块 的 写 。 对 一 个 共享 块 的 写 不 命中 的 处 理 可 用 这 两 个 操作 组 合 而 成 。 

在 目录 协议 中 ,存储 块 的 状态 有 以 下 三 种 。 

(1) 未 缓冲 (Uncached) 一 一 该 块 尚未 被 调和 Cache。 所 有 处 理 机 的 Cache 中 都 没有 这 
个 块 的 副本 。 

(2) 共享 (Shared) 一 一 该 块 在 一 个 或 多 个 处 理 机 上 有 这 个 块 的 副本 , 且 这 些 副 本 与 存 
储 器 中 的 该 块 相同 。 

(3) 独占 (Exclusive) 一 一 仅 有 一 个 处 理 机 有 这 个 块 的 副本 , 且 该 处 理 机 已 经 对 其 进行 
了 写 操作 ,所 以 其 内 容 是 最 新 的 ,而 存储 器 中 该 块 的 数据 已 过 时 。 这 个 处 理 机 称 为 该 块 的 拥 
有 者 。 

为 了 提高 实现 效率 ,我 们 在 每 个 Cache 中 还 跟踪 记录 每 个 Cache 块 的 状态 。 

在 目录 法 中 ,每 个 Cache 中 的 Cache 块 的 状态 及 其 转换 与 前 面 监听 法 的 情况 相同 。 只 
是 在 状态 转换 时 所 进行 的 操作 有 些 不 同 。 

本 地 结 点 是 指 发 出 访问 请 求 的 结 点 。 该 结 点 中 的 处 理 机 P 发 出 了 一 个 地 址 为 的 访 
存 请 求 。 宿 主 结 点 是 指 包 含 所 访问 的 存储 单元 及 其 目录 项 的 结 点 , 它 包 含 地 址 K 的 存储 单 
元 及 相应 的 目录 项 。 而 拥有 相应 存储 块 副本 的 结 点 则 称 为 远程 结 点 。 因 为 物理 地 址 空间 是 
静态 分 布 的 ,所 以 对 于 某 一 给 定 的 物理 地 址 ,包含 其 存储 单元 及 目录 项 的 结 点 是 确定 且 唯 一 
的 。 该 地 址 的 高 位 指出 结 点 号 ,而 低位 则 表示 在 相应 结 点 的 存储 器 内 的 偏 移 量 。 

本 地 结 点 和 宿主 结 点 可 以 是 同一 个 结 点 ,这 时 所 访问 的 地 址 单元 就 在 本 地 结 点 的 存储 
器 中 。 远 程 结 点 可 以 和 宿主 结 点 是 同一 个 结 点 :也 可 以 和 本 地 结 点 是 同一 个 结 点 。 在 这 些 
情况 下 ,基本 协议 不 需要 变动 ,只 是 结 点 之 间 的 消息 变 成 了 结 点 内 的 消息 。 


进入 Cache 的 
一 步 介 绍 这 些 
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2. 目录 协议 实例 


基于 目录 的 协议 中 Cache 的 基本 状态 与 监听 协议 中 的 相同 ,Cache 块 状态 转换 的 操作 
在 实质 上 也 与 监听 模式 相同 。 在 监听 协议 中 , 写 失效 操作 要 在 总 线 上 进行 广播 ,现在 则 由 从 
宿主 结 点 的 取 数 据 和 目录 控制 器 有 选择 地 发 出 写作 废 操作 来 代替 。 与 监听 协议 相同 , 当 对 
Cache 块 进行 写 操作 时 ,该 Cache 块 必须 是 处 于 独占 状态 。 另 外 ,对 于 任何 一 个 处 于 共享 状 
态 的 块 来 说 ,其 宿主 存储 器 中 的 内 容 都 是 最 新 的 。 

在 基于 目录 的 协议 中 ,目录 承担 了 一 致 性 协议 操作 的 主要 功能 。 目 录 中 的 状态 有 : 共 
享 ,未 缓冲 和 专 有 ,它们 用 于 指出 相应 的 存储 块 所 处 的 状态 。 未 缓冲 是 指 该 存储 块 在 所 有 的 
处 理 器 结 点 中 都 没有 副本 ; 共享 是 指 该 块 在 多 个 处 理 器 结 点 中 有 副本 ,而 且 只 是 可 读 的 ， 
专 有 是 指 该 块 只 在 一 个 结 点 中 有 副本 ,并且 在 该 结 点 中 是 可 写 的 。 除 了 每 个 块 的 状态 外 , 目 
录 项 还 用 位 向 量 记录 拥有 其 副本 的 处 理 器 集合 。 这 个 集合 称 为 共享 集合 。 对 目录 表 的 请 求 
处 理 需 更 新 共享 集合 。 发 往 一 个 目录 的 消息 会 产生 两 种 不 同类 型 的 动作 : 更 新 目录 状态 和 
发 送 消息 以 完成 所 请 求 的 操作 。 

目录 可 能 接收 到 三 种 不 同 的 请 求 : 读 不 命中 、 写 不 命中 或 数据 写 回 。 可 以 假设 这 些 操 
作 是 原子 的 。 为 了 进一步 理解 对 目录 的 操作 ,下 面 分 析 一 下 各 个 状态 下 所 接收 到 的 请 求 和 
相应 的 操作 。 

(1) 当 一 个 块 处 于 未 缓冲 状态 时 ,对 该 块 发 出 的 请 求 及 处 理 操作 如 下 。 

@ 读 不 命中 一 一 将 存储 器 数据 送 往 请 求 方 处 理 器 , 且 该 处 理 器 成 为 该 块 的 唯一 共享 结 
点 ,本 块 的 状态 变 成 共享 。 

@ 写 不 命中 一 一 将 存储 器 数据 送 往 请 求 方 处理 器 ,该 块 的 状态 变 成 独占 ,表示 该 块 仅 
存在 唯一 的 有 效 副 本 。 其 共享 集合 仅 包含 该 处 理 器 ,指出 该 处 理 器 是 其 拥有 者 。 

(2) 当 一 个 块 处 于 共享 状态 时 ,其 在 存储 器 中 的 数据 是 当前 最 新 的 ,对 该 块 发 出 的 请 求 
及 处 理 操 作 如 下 。 

@ 读 不 命中 一 一 将 存储 器 数据 送 往 请 求 方 处 理 器 ,并 将 其 加 入 共享 集合 。 

@ 写 不 命中 一 一 将 数据 送 往 请 求 方 处 理 器 ,对 共享 集合 中 所 有 的 处 理 器 发 送 写 作废 消 
息 , 且 将 共享 集合 改 为 仅 含 有 该 处 理 器 ,该 块 的 状态 变 为 独占 。 

(3) 当 某 块 处 于 独占 状态 时 ,该 块 的 最 新 值 保存 在 共享 集合 所 指出 的 唯一 处 理 器 (拥有 
者 ) 中 。 有 以 下 三 种 可 能 的 目录 请 求 。 

J@ 读 不 命中 一 一 将 * 取 数据 ?的 消息 发 往 拥 有 者 处 理 器 ,使 该 块 的 状态 转变 为 共享 ,并 
将 数据 送 回 宿主 结 点 写 入 存储 器 ,进而 把 该 数据 送 回 请求 方 处 理 器 ,将 请 求 方 处 理 器 加 入 共 
享 集合 。 此 时 共享 集合 中 仍 保留 原 拥 有 者 处 理 器 (因为 它 仍 有 一 个 可 读 的 副本 ) 。 

@ 写 不 命中 一 一 该 块 将 有 一 个 新 的 拥有 者 。 给 旧 的 拥有 者 处 理 器 发 送 消息 ,要 求 它 将 
数据 块 送 回 宿主 结 点 写 人 存储 器 ,然后 再 从 该 结 点 送 给 请 求 方 处 理 器 。 把 请 求 处 理 器 加 入 
共享 者 集合 ,使 之 成 为 新 的 拥有 者 。 该 块 的 状态 仍旧 是 独占 。 

@ 数据 写 回 一 一 当 一 个 块 的 拥有 者 处 理 器 要 从 其 Cache 中 把 该 块 替换 出 去 时 ,必须 将 
该 块 写 回 其 宿主 结 点 的 存储 器 中 ,从 而 使 存储 器 中 相应 的 块 中 存放 的 数据 是 最 新 的 (宿主 结 
点 实际 上 成 为 拥有 者 ) ,该 块 的 状态 变 成 未 缓冲 ,其 共享 集合 为 空 。 

实际 计算 机 中 采用 的 目录 协议 要 做 一 些 优化 。 比 如 对 某 个 独占 块 发 出 读 或 写 不 命中 
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时 ,该 块 将 先 被 送 往 宿主 结 点 存 人 存储 器 ,然后 再 被 送 往 请 求 结 点 ,而 实际 中 的 计算 机 很 多 
都 是 将 数据 从 拥有 者 结 点 直接 送 该 请 求 结 点 (同时 写 回 宿主 结 点 中 的 存储 器 ) 。 

基于 目录 的 Cache 一 致 性 协议 是 完全 由 硬件 实现 的 。 当 然 ,也 可 以 用 软 硬 结合 的 办 法 
实现 ,即将 一 个 可 编程 协议 处 理 机 嵌入 到 一 致 性 控制 器 中 ,这 样 既 减少 了 成 本 ,又 缩短 了 开 
发 周期 。 这 是 因为 可 编程 协议 处 理 机 可 以 根据 实际 应 用 需要 很 快 开发 出 来 ,而 一 致 性 协议 
处 理 中 的 异常 情况 可 完全 交 给 软件 执行 。 这 种 软 硬 结合 实现 Cache 一 致 性 的 代价 是 损失 了 
一 部 分 效率 。 

到 目前 为 止 讨论 的 一 致 性 协议 都 做 了 一 些 简化 的 假设 ,实际 中 的 协议 必须 处 理 以 下 两 
个 实际 问题 : 操作 的 非 原子 性 和 有 限 的 缓存 。 操 作 的 非 原 子 性 产生 实现 的 复杂 性 ,有 限 的 
缓存 可 能 导致 死 锁 问题 。 设 计 者 面临 的 一 个 问题 是 通过 非 原子 的 操作 和 有 限 的 缓存 设计 出 
一 种 正确 的 且 无 死 锁 的 协议 ,这 些 因素 是 所 有 并 行 机 面临 的 基本 问题 。 


3. 目录 的 3 种 结构 


不 同 目 录 协 议 的 主要 区 别 主要 有 两 个 ,一 个 是 所 设置 的 存储 器 块 的 状态 及 其 个 数 不 同 ， 
另 一 个 则 是 目录 的 结构 。 根 据 目 录 的 结构 ,可 以 把 目录 协议 分 成 三 类 : 全 映像 目录 、 有 限 映 
像 目录 和 链 式 目录 。 

1) 全 映像 目录 

前 面 介 绍 的 协议 都 是 基于 全 映像 目录 的 。 在 这 种 结构 中 ,每 一 个 目录 项 都 包含 一 个 N 
位 CN 为 处 理 机 的 个 数 ) 的 位 向 量 , 位 向 量 的 每 一 位 对 应 于 一 个 处 理 机 。 当 位 向 量 中 的 值 为 
“1” 时 ,就 表示 它 所 对 应 的 处 理 机 有 该 数据 块 的 副本 ; 否则 就 表示 没有 。 在 这 种 情况 下 , 共 
享 集合 由 位 向 量 中 值 为 "1? 的 位 所 对 应 的 处 理 机 构成 。 

全 映像 目录 的 处 理 比 较 简单 ,速度 也 比较 快 。 但 它 的 存储 空间 的 开销 很 大 。 目 录 项 的 
数目 与 处 理 机 的 个 数 N 成 正比 ,而 目录 项 的 大 小 (位 数 ) 也 与 N 成 正比 ,因此 目录 所 占用 的 
空间 与 N? 成 正比 。 这 种 目录 结构 的 可 扩 放 性 很 差 。 

2) 有 限 映像 目录 

有 限 映 像 目 录 是 对 全 映像 目录 的 改进 ,为 的 是 提高 其 可 扩 放 性 和 减少 目录 所 占用 空间 。 
其 核心 思想 是 采用 位 数 固 定 的 目录 项 目 , 这 是 通过 对 同一 数据 块 在 所 有 Cache 中 的 副本 总 
数 进行 限制 来 实现 的 。 例 如 ,限定 为 常数 冯 , 则 目录 项 中 用 于 表示 共享 集合 所 需 的 二 进 制 位 
数 为 : mX|logsN |。 人 们 发 现 , 根 据 局 部 性 原理 ,一 般 来 说 m 二 二 N ,这样 就 能 大 大 地 减 小 
目录 存储 器 的 规模 。 这 种 目录 所 占用 的 空间 与 NX|logzN | 成 正比 。 

有 限 映 像 目 录 的 缺点 是 : 当 同 一 数据 的 副本 个 数 大 于 m 时 ,必须 做 特殊 处 理 。 当 目录 
项 中 的 mn 个 指针 都 已 经 全 被 占 满 ,而 某 处 理 机 又 需要 新 调 入 某 一 块 时 ,就 需要 在 m 个 指针 
中 选择 一 个 ,将 之 驱逐 ,以 便 腾 出 位 置 ,存放 指向 新 调 入 块 的 处 理 机 的 指针 。 

3) 链 式 目录 

链 式 目录 是 用 一 个 目录 指针 链表 来 表示 共享 集合 。 当 一 个 数据 块 的 副本 数 增加 (或 减 
少 ) 时 ,其 指针 链表 就 跟着 变 长 (或 变 短 )。 由 于 链表 的 长 度 不 受 限制 ,因而 带 来 了 以 下 优点 : 
既 不 限制 副本 的 个 数 ,又 保持 了 可 扩展 性 。 

链 式 目录 有 两 种 实现 方法 : 单 链 法 和 双 链 法 。 链 式 目录 比 前 两 种 结构 都 复杂 不 少 , 但 
它 带 来 了 可 扩展 性 ,这 是 前 两 种 方法 所 无 法 实现 的 。 链 式 目 录 的 指针 的 位 数 与 |logsN | 成 
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正比 ,但 每 个 数据 块 的 链表 中 的 指针 数目 与 处 理 机 的 个 数 无 关 。 在 目录 所 占用 的 空间 方面 ， 
链 式 目录 与 有 限 映 像 目 录 类 似 , 也 是 与 NX [log:N 1] 成 正比 。 


10.2.4 同步 


在 大 规模 计算 机 或 进程 竞争 激烈 的 情况 下 ,同步 可 能 会 成 为 性 能 的 瓶颈 ,导致 较 大 的 延 
迟 开销 。 同 步 机 制 通常 是 在 硬件 提供 的 同步 指令 的 基础 上 ,通过 用 户 级 软件 例 程 来 建立 的 。 


1. 基本 硬件 原 语 


在 多 处 理 机 中 实现 同步 ,所 需 的 主要 功能 是 一 组 能 以 原子 操作 的 方式 读 出 并 修改 存储 
单元 的 硬件 原 语 。 基 本 硬件 原 语 有 几 种 形式 可 供 选 择 , 它 们 都 能 以 原子 操作 的 方式 读 /修改 
存储 单元 ,并 指出 所 进行 的 操作 是 否 以 原子 的 方式 进行 。 

用 于 构造 同步 操作 的 一 个 典型 操作 是 原子 交换 , 它 的 功能 是 将 一 个 存储 单元 的 值 和 一 
个 寄存 器 的 值 进 行 交 换 。 我 们 来 看 看 如 何 用 它 来 构造 一 个 基本 的 同步 操作 。 假 设 我 们 是 要 
构造 这 样 一 个 简单 的 锁 : 其 值 为 0 表示 锁 是 开 的 (可 用 ), 为 1 表示 已 上 锁 ( 不 可 用 )。 当 处 
理 器 要 给 该 锁 上 锁 时 ,是 将 对 应 于 该 锁 的 存储 单元 的 值 与 存放 在 某 个 寄存 器 中 的 1 进行 交 
换 。 如 果 别 的 处 理 器 早已 上 了 锁 , 则 交换 指令 返回 的 值 为 1 ,否则 为 0。 在 后 一 种 情况 下 ,该 
锁 的 值 会 从 0 变 成 1, 即 上 了 锁 。 这 样 ,其 他 竞争 的 交换 指令 的 返回 值 就 不 会 是 0。 

还 有 一 些 别 的 原 语 可 用 来 实现 同步 .它们 均 具有 这 样 的 关键 属性 : 能 指出 是 否 以 原子 
的 方式 读 出 并 更 新 存储 单元 值 。 测 试 并 置 定 是 其 中 之 一 ,在 许多 以 往 的 多 处 理 机 中 都 有 这 
个 操作 。 其 功能 是 先 测试 一 个 存储 单元 的 值 ,如 果 符 合 条 件 则 修改 其 值 。 例 如 ,可 以 定义 一 
个 操作 来 检测 某 个 存储 单元 值 是 否 为 0, 是 则 置 1。 其 使 用 方法 跟前 面 介绍 的 原子 交换 类 
似 。 另 一 个 同步 原 语 是 读 取 并 加 1, 它 返回 存储 单元 的 值 并 自动 增加 该 值 。 

然而 ,要 在 一 条 指令 中 完成 上 述 全 部 操作 会 有 一 些 困难 ,因为 它 要 在 一 条 不 可 中 断 的 指 
令 中 完成 一 次 存储 器 读 和 一 次 存储 器 写 ,而 且 在 这 一 过 程 中 不 允许 进行 其 他 的 访 存 操 作 ,而 
且 还 要 避免 死 锁 。 

现在 一 些 计算 机 上 用 到 的 原子 方式 的 读 / 修 改 方法 略 有 不 同 , 它 们 采用 一 对 指令 而 不 是 
一 条 指令 来 实现 上 述 同步 原 语 。 这 种 方法 是 在 第 二 条 指令 返回 一 个 值 , 通 过 该 值 可 以 判断 
该 指令 对 的 执行 结果 是 否 相 当 于 一 个 原子 操作 。 所 谓 相 当 于 原子 操作 是 指 所 有 其 他 处 理 器 
进行 的 操作 或 者 是 在 该 指令 对 之 前 ,或 者 是 在 该 指令 对 之 后 进行 ,不 存在 在 这 两 条 指令 之 间 
进行 的 操作 。 

该 指令 对 由 两 条 特殊 的 指令 构成 ,一 条 是 特殊 的 load 指令 , 称 为 LL(Load Linked) , 另 
一 条 是 特殊 的 store 指令 , 称 为 SC(Store Conditional)。 如 果 由 LL 指明 的 存储 单元 的 内 容 
在 SC 对 其 进行 写 之 前 已 被 其 他 指令 改写 过 , 则 第 二 条 指令 SC 执行 失败 ; 如 果 在 两 条 指令 
间 进 行 切换 也 会 导致 SC 执行 失败 。SC 将 返回 一 个 值 来 指出 该 指令 操作 是 否 成 功 ,如 果 执 
行 成 功 返 回 1, 否 则 返回 0。LL 则 返回 该 存储 单元 初始 值 。 下 面 这 一 段 程序 实现 对 由 R1 
指出 的 存储 单元 进行 原子 交换 操作 。 


try: OR  R3, R4, RO //R4 中 为 交换 值 .把 该 值 送 入 R3 
LIL RR2, 0(R1) // 把 单元 0(R1) 中 的 值 取 到 R2 
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SC BR3, 0(R1) // 若 0(R1) 中 的 值 与 R3 中 的 值 相 同 , 则 置 R3 的 值 
// 为 1, 否则 置 为 0 

BEQZ R3, try // 存 失败 (R3 的 值 为 0) 则 转移 

MOV  R4, R2 // 将 取 的 值 送 往 R4 


最 终 R4 和 由 R1 指向 的 单元 值 进行 原子 交换 ,在 LL 和 SC 之 间 如 有 别 的 处 理 器 插入 
并 修改 了 存储 单元 的 值 ,SC 将 返回 0 并 存 人 R3 中 ,从 而 使 这 段 程序 再 次 执行 。 
LL/SC 机 制 的 一 个 优点 是 可 用 来 构造 别 的 同步 原 语 。 


2. 用 一 致 性 实现 锁 


有 了 原子 操作 ,就 可 以 采用 多 处 理 机 的 一 致 性 机 制 来 实现 旋转 锁 。 旋 转 锁 是 指 处 理 器 
不 停 地 请 求 获得 使 用 权 的 锁 。 处 理 器 围绕 该 锁 反 复 执 行 循 环 程序 ,直到 获得 该 锁 。 旋 转 锁 
适合 于 这 样 的 场合 : 锁 被 占用 的 时 间 很 少 ,在 获得 锁 后 加 锁 过 程 延 迟 很 小 。 因 为 旋转 锁 会 
把 处 理 器 绑 定 在 循环 等 待 获得 锁 的 使 用 权 中 ,所 以 在 有 些 情 况 下 不 适合 使 用 。 

在 无 Cache 一 致 性 机 制 的 条 件 下 ,最 简单 的 实现 方法 是 把 锁 变量 保存 在 存储 器 中 ,处 理 
器 可 以 不 断 地 通过 一 个 原子 操作 来 请 求 其 使 用 权 , 比 如 利用 原子 交换 操作 ,并 测试 返回 值 从 
而 知道 锁 的 使 用 情况 。 释 放 锁 的 时 候 , 处 理 器 只 需 简 单 地 将 锁 置 为 0。 下面 这 段 程序 用 原 
子 交 换 操 作对 旋转 锁 进行 加 锁 ,R1 中 存放 的 是 该 旋转 锁 的 地 址 。 


DADDIU R2, RO, #1 


lockit: EXCH  R2, 0(R1) // 原 子 交 换 
BNEZ R2, lockit // 若 R2 的 内 容 不 为 0, 则 表示 已 经 被 其 他 程序 上 锁 。 
// 继 续 旋转 等 待 


如 果 计 算 机 支持 Cache 一 致 性 ,就 可 以 将 锁 调 入 Cache, 并 通过 一 致 性 机 制 使 锁 值 保持 
一 致 。 这 样 做 有 两 个 好 处 : 第 一 ,可 使 “环绕 ”的 进程 (对 锁 进 行 不 停 的 测试 和 请 求 占用 的 小 
循环 ) 只 对 本 地 Cache 中 的 锁 ( 副 本 ) 进 行 操作 ,而 不 用 在 每 次 请 求 占用 锁 时 都 进行 一 次 全 局 
的 存储 器 访问 ; 第 二 个 好 处 是 可 利用 访问 锁 时 所 具有 的 局 部 性 , 即 处 理 器 最 近 使 用 过 的 锁 
不 久 又 会 使 用 ,这 种 状况 下 锁 可 驻 留 在 那个 处 理 器 的 Cache 中 ,大 大 减少 了 获得 锁 所 需要 的 
时 间 。 

要 获得 第 一 条 好 处 , 需 对 上 面 简单 的 旋转 锁 程序 进行 一 些 改动 ,上 面 循环 中 每 次 交换 均 
需 一 次 写 操作 ,如 果 有 多 个 处 理 器 都 同时 请 求 加 锁 , 则 大 多 数 写 都 会 导致 写 不 命中 ,因为 每 
个 处 理 器 都 想 以 独占 的 方式 获得 锁 变量 。 因 此 应 该 对 旋转 锁 程序 进行 改进 ,使 得 它 只 对 本 
地 Cache 中 锁 的 副本 进行 读 取 和 检测 ,直到 发 现 该 锁 已 经 被 释放 。 然 后 ,该 程序 立即 进行 交 
换 操 作 ,去 跟 在 其 他 处 理 器 上 的 进程 争 用 该 锁 变 量 。 这 些 进程 也 在 以 同样 的 方式 “旋转 等 
待 ” 该 锁 。 所 有 这 些 进程 都 采用 交换 指令 来 从 锁 变量 读 出 原来 的 值 ,并 把 1 写 人 锁 变 量 。 只 
有 一 个 进程 获胜 一 一 获得 锁 的 占有 权 ,该 进程 看 到 锁 变 量 原来 的 值 是 0。 其 余 的 进程 都 是 
失败 者 ,虽然 它们 也 把 锁 变 量 置 1, 但 因 它 们 所 看 到 的 锁 变量 本 来 就 是 1, 所 以 等 于 没 做 什 
么 。 它 们 还 要 继续 “旋转 等 待 "”。 获 得 占有 权 的 处 理 器 在 执行 完 其 代码 后 ,将 锁 变量 置 0 以 
释放 它 , 其 他 “旋转 等 待 ”该 锁 的 进程 又 开始 争 用 。 下 面 是 修改 后 的 旋转 锁 程序 。 


lockit: ID R2, 0(R1) // 取 锁 值 
BNEZ R2, lockit // 如 果 锁 没有 被 释放 , 继续 "旋转 等 待 " 
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DADDIU R2, RO, #1 // 置 R2 为 1 
EXCH  R2, 0(R1) // 交 换 
BNEZ R2, lockit // 如 果 锁 没有 被 释放 ,继续 "旋转 等 待 " 


让 我 们 分 析 一 下 这 种 旋转 锁 是 怎样 使 用 Cache 一 致 性 机 制 的 。 一 旦 一 个 拥有 旋转 锁 的 
处 理 器 使 用 完毕 ,并 写 和 人 0 来 释放 该 锁 , 所 有 其 他 Cache 中 的 对 应 块 均 被 作废 ,必须 取 新 的 
值 来 更 新 它们 所 拥有 的 锁 的 副本 。 其 中 一 个 处 理 器 的 Cache 会 先 获 得 被 释放 了 的 锁 的 值 
(0) ,并 进行 交换 操作 。 当 别 的 Cache 不 命中 处 理 完 后 ,它们 会 发 现 该 锁 已 经 被 加 了 锁 , 所 以 
又 必须 不 停 地 环绕 测试 。 

这 个 例子 也 说 明了 LL/SC 原 语 的 另 一 个 优点 : 读 写 操作 显 式 地 分 开 。LL 不 产生 总 线 
数据 传送 ,这 使 得 下 面 这 段 程序 与 前 面 采 用 交换 操作 、 经 过 优化 了 的 代码 具有 相同 的 特点 
CR1 中 保存 锁 的 地 址 ) : 


lockit: LL R2, 0(R1) //load- linked 
BNEZ R2, lockit // 若 锁 未 被 释放 , 则 旋转 
DADDIU R2, RO, #1 // 置 锁 值 为 1 
sc R2，0(R1) // 写 入 存储 器 
BEQZ R2, lockit // 如 果 存 失败 则 转移 


第 一 个 分 支 形成 环绕 的 循环 体 , 第 二 个 分 支 解 决 了 两 个 处 理 器 同时 看 到 锁 可 用 的 情况 
下 的 争 用 问题 。 尽 管 旋转 锁 机 制 简单 并 且 具 有 吸引 力 ,但 难以 将 它 应 用 于 处 理 器 数量 很 多 
的 情况 ,因为 锁 被 释放 时 ,处 理 器 之 间 争 用 锁 会 产生 大 量 的 通信 开销 。 


3. 同步 性 能 问题 


上 面 介绍 的 简单 旋转 锁 不 能 很 好 地 适应 可 扩 放 性 。 设 想 一 下 ,如 果 大 规模 多 处 理 机 中 
所 有 的 处 理 器 都 同时 争 用 同一 个 锁 , 那 么 目录 或 总 线 作 为 所 有 处 理 器 实现 串 行 化 的 中 心 点 ， 
肯定 是 个 瓶颈 ,会 导致 大 量 的 争 用 和 通信 开销 。 

下 面 讨 论 如 何 用 旋转 锁 来 实现 一 个 常用 的 高 级 同步 原 语 一 一 栅栏 同步 。 栅 栏 强制 所 有 
到 达 该 栅栏 的 进程 进行 等 待 ,直到 全 部 的 进程 到 达 栅 栏 ,然后 释放 全 部 的 进程 ,从 而 形成 同 
步 。 栅 栏 的 典型 实现 是 用 两 个 旋转 锁 : 一 个 用 来 保护 一 个 计数 器 , 它 记录 已 到 达 该 栅栏 的 
进程 数 ; 另 一 个 用 来 封锁 进程 直至 最 后 一 个 进程 到 达 该 栅栏 。 为 了 实现 栅栏 ,一 般 要 利用 
这 样 的 功能 : 在 一 个 变量 上 旋转 等 待 直到 它 满足 规定 的 条 件 。 我 们 用 spin(condition) 来 表 
示 这 种 情况 。 下 面 的 程序 是 一 种 典型 的 实现 ,其 中 ,lock 和 unlock 提供 基本 的 旋转 锁 , 变 量 
count 记录 已 到 达 栅 栏 的 进程 数 ,total 规定 了 要 到 达 栅 栏 的 进程 总 数 ,对 counterlock 加 锁 
保证 增 量 操作 的 原子 性 。release 用 来 封锁 进程 直到 最 后 一 个 进程 到 达 栅 栏 。spin(release 一 1) 
使 进程 等 待 直到 全 部 的 进程 到 达 栅 栏 。 


lock(counterlock); // 确 保 更 新 的 原子 性 
if(count == 0)release= 0; // 第 一 个 进程 则 重 置 release 
count = count + 1; // 到 达 进 程 数 加 1 
unlock(counterlock); // 释 放 锁 
if(count == total){ // 进 程 全 部 到 达 

count = 0; // 重 置 计数 器 


release=1; // 释 放 进 程 
} 
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else { // 还 有 进程 未 到 达 
spin(release=1); // 等 待 别 的 进程 到 达 
} 


栅栏 通常 是 在 循环 中 使 用 ,因此 从 栅栏 释放 出 的 进程 在 运行 一 段 后 又 会 再 次 到 达 该 栅 
栏 。 假 设 其 中 有 一 个 进程 还 没有 离开 栅栏 , 即 停留 在 旋转 等 待 操作 上 (例如 操作 系统 重新 调 
度 进程 后 就 可 能 发 生 这 样 的 情况 )。 这 时 如 果 有 个 进程 的 执行 比较 快 ,又 到 达 了 栅栏 ,而 上 
一 次 循环 的 进程 中 最 后 那个 还 没 来 得 及 离开 该 栅栏 。 那 么 这 个 “ 快 " 进 程 就 会 把 release 重 
新 置 为 0, 从 而 把 上 次 循环 的 “ 慢 ” 进 程 “ 捆 ”在 了 这 个 栅栏 上 。 这 样 所 有 的 进程 在 这 个 栅栏 
的 又 一 次 使 用 中 都 会 处 于 无 限 等 待 状态 ,因为 已 经 到 达 该 栅栏 的 进程 数目 总 是 达 不 到 total 
(上 一 次 循环 欠 了 1 个)。 

解决 这 个 问题 的 一 种 方法 是 当 进 程 离开 栅栏 时 进行 计数 (和 到 达 时 一 样 ) ,在 上 次 栅栏 
使 用 中 的 所 有 进程 离开 之 前 ,不 允许 任何 进程 重用 并 初始 化 本 栅栏 。 但 这 会 明显 增加 栅栏 
的 延迟 和 竞争 。 另 一 种 解决 办 法 是 采用 sense_reversing 栅栏 ,每 个 进程 均 使 用 一 个 私有 变 
量 local_sense, 该 变量 初始 化 为 1。 下 面 的 程序 给 出 了 sense_reversing 栅栏 的 代码 ,这 种 方 
法 使 用 安全 。 但 其 性 能 仍旧 比较 差 。 对 于 10 个 处 理 器 来 说 , 当 同 时 进行 栅栏 操作 时 ,如 果 
忽略 对 Cache 的 访问 时 间 以 及 其 他 非 同步 操作 所 需 的 时 间 , 则 其 总 线 事务 数 为 204 个 ,如 果 
每 个 总 线 事务 需要 100 个 时 钟 周期 , 则 总 共 需 要 20 400 个 时 钟 周期 。 


local_ sense=! local_ sense; //local - sense 取 反 
lock(counterlock); // 确 保 更 新 的 原子 性 
count++; // 到 达 进 程 数 加 1 
unlock(counterlock); // 释 放 锁 
if(count == total){ // 进 程 全 部 到 达 
count = 0; // 重 置 计数 器 
release = local sense; // 释 放 进程 
} 
else { // 还 有 进程 未 到 达 


spin(release == local_sense); // 等 待 信号 
} 


由 上 面 这些 例 子 可 以 看 出 , 当 多 进程 之 间 竞 争 激烈 时 ,同步 会 成 为 瓶颈 。 当 竞争 很 少 而 
且 同 步 操作 也 较 少 时 ,我们 主要 关心 的 是 同步 原 语 操作 的 延迟 , 即 单个 进程 要 花 多 长 时 间 才 
完成 一 个 同步 操作 。 基 本 的 旋转 锁 操 作 可 在 两 个 总 线 周 期 内 完成 : 一 个 读 锁 , 一 个 写 锁 。 
我 们 可 以 采用 多 种 方法 进行 改进 ,使 它 在 单个 周期 内 完成 操作 。 例 如 ,可 简单 地 在 交换 操作 
上 旋转 。 如 果 锁 经 常 处 于 未 占用 状态 ,这 种 方法 很 好 ; 但 如 果 锁 已 被 占用 ,就 将 会 导致 大 量 
的 总 线 事务 ,因为 每 一 个 试图 给 锁 变量 加 锁 的 操作 均 需 要 一 个 总 线 周期 。 不 过 ,实际 上 旋转 
锁 的 延迟 并 不 像 上 述 例子 中 所 示 的 那样 糟糕 ,因为 在 实现 中 可 以 对 Cache 的 写 不 命中 加 以 
优化 。 

上 述 例子 中 ,更 严重 的 问题 在 于 进程 进行 同步 操作 的 串 行 化 。 当 有 竞争 时 , 串 行 化 就 会 
成 为 一 个 问题 。 因 为 它 大 幅度 地 增加 了 完成 同步 操作 所 需要 的 时 间 。 栅 栏 的 情况 也 差 不 
多 ,甚至 更 严重 。 
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10.2.5 同时 多 线程 


线程 是 进程 内 的 一 个 相对 独立 的 、 可 独立 调度 和 指派 的 执行 单元 。 它 只 拥有 在 运行 过 
程 中 必 不 可 少 的 一 点 儿 资源 ,如 程序 计数 器 ,一 组 寄存 器 、 堆 栈 等 。 所 以 线程 切换 时 ,只 需 保 
存 和 设置 少量 寄存 器 的 内 容 , 开 销 很 小 。 线 程 切换 只 需要 几 个 时 钟 周期 ,最 快 可 以 每 个 时 钟 
周期 切换 一 次 。 而 进程 的 切换 一 般 需要 成 百 上 千 个 处 理 器 时 钟 周期 。 

实现 多 线程 的 主要 方法 有 以 下 两 种 。 

(1) 细 粒 度 多 线程 。 它 在 每 条 指令 之 间 都 能 进行 线程 的 切换 ,从 而 使 得 多 个 线程 可 以 
交替 执行 。 通 常 以 时 间 片 轮转 的 方法 实现 这 样 的 交替 执行 ,在 轮转 的 过 程 中 跳 过 处 于 停顿 
的 线程 。 为 了 使 细 粒 度 多 线程 能 达到 实用 的 水 平 ,CPU 必须 在 每 个 时 钟 周期 都 能 进行 线程 
的 切换 。 

优点 : 不 仅 能 够 隐藏 由 长 时 间 停 顿 引 起 的 吞吐 率 的 损失 ,而 且 能 够 隐藏 由 短 时 间 停 顿 
带 来 的 损失 。 

缺点 : 减 慢 了 单个 线程 的 执行 ,这 是 因为 即使 没有 任何 停顿 的 线程 也 不 能 连续 执行 ,而 
是 会 因 其 他 线程 的 指令 的 插入 执行 而 被 延迟 。 

(2) 粗 粒度 多 线程 。 它 是 针对 细 粒 度 多 线程 的 缺点 而 提出 的 。 粗 粒度 多 线程 之 间 的 切 
换 只 发 生 在 时 间 较 长 的 停顿 出 现 的 时 候 。 这 一 改变 使 得 粗 粒 度 多 线程 不 需要 像 细 粒度 那样 
自由 地 切换 ,减少 了 切换 次 数 ,并 且 也 不 太 会 降低 单个 线程 的 执行 速度 。 

缺点 : 减少 吞吐 率 损 失 的 能 力 有 限 ,特别 是 对 于 较 短 的 停顿 来 说 更 是 如 此 。 由 于 实现 
粗 粒 度 多 线程 的 CPU 只 能 执行 单个 线程 的 指令 ,不 能 交叉 执行 多 个 线程 ,因此 当 发 生 停顿 
时 ,流水 线 必须 排 空 或 暂停 。 新 线程 也 有 个 填 满 流水 线 的 过 程 , 填 满 后 才能 不 断 地 流出 指令 
执行 结果 。 由 于 有 启动 开销 , 粗 粒 度 多 线程 对 于 减少 长 时 间 停 顿 所 带 来 的 损失 较为 有 效 ,此 
时 流水 线 的 建立 时 间 相 对 于 停顿 时 间 可 以 忽略 不 计 。 


1. 将 线程 级 并 行 转换 为 指令 级 并 行 


同时 多 线程 技术 (Simultaneous MultiThreading,SMT) 是 一 种 在 多 流出 ,动态 调度 的 处 
理 器 上 同时 开发 线程 级 并 行 和 指令 级 并 行 的 技术 , 它 是 多 线程 技术 的 一 种 改进 。 提 出 SMT 
的 主要 原因 是 现代 多 流出 处 理 器 通常 含有 多 个 并 行 的 功能 单元 ,而 单个 线程 不 能 有 效 地 利 
用 这 些 功 能 单元 。 而 且 , 通 过 寄存 器 重 命名 和 动态 调度 机 制 ,来 自 各 个 独立 线程 的 多 条 指令 
可 以 同时 流出 ,而 不 用 考虑 它们 之 间 的 相互 依赖 关系 ,其 相互 依赖 关系 将 通过 动态 调度 机 制 
得 以 解决 。 

在 粗 粒度 多 线程 超标 量 处 理 器 中 ,通过 线程 的 切换 部 分 隐藏 了 长 时 间 停 顿 带 来 的 开销 ， 
提高 了 硬件 资源 的 利用 率 。 尽 管 这 样 减少 了 完全 空闲 的 时 钟 周 期 ,但 由 于 ILP 有 限 ,而且 
在 粗 粒度 多 线程 处 理 器 中 ,只 有 发 生 停顿 时 才 进 行 线程 切换 ,而 且 新 线程 还 有 个 启动 期 ,所 
以 仍然 可 能 有 一 些 完全 空闲 的 时 钟 周期 。 

在 细 粒 度 多 线程 超标 量 处 理 器 中 ,线程 的 交替 执行 消除 了 完全 空闲 的 时 钟 周期 。 由 于 
在 每 个 时 钟 周 期 内 只 能 流出 一 个 线程 的 指令 ,ILP 的 限制 导致 了 一 些 时 钟 周期 中 依然 存在 
不 少 空闲 流出 槽 。 
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在 SMT 超标 量 处 理 器 中 ,是 同时 开发 实现 线程 级 并 行 和 指令 级 并 行 ,允许 在 同一 个 时 
钟 周期 中 由 多 个 线程 共同 使 用 流出 槽 。 理 想 情 况 下 ,流出 槽 的 利用 率 只 受 限 于 多 个 线程 对 
资源 的 需求 和 可 用 资源 间 的 不 平衡 ,但 实际 中 也 受 其 他 一 些 因素 的 限制 ,包括 活跃 线程 的 个 
数 、 缓 冲 大 小 的 限制 .从 多 个 线程 取出 足够 多 条 指令 的 能 力 ,线程 之 间 哪 些 指令 组 合 可 以 同 
时 流出 等 。 

如 上 所 述 ,动态 调度 的 处 理 器 已 经 具备 了 开发 线程 级 并 行 所 需 的 许多 硬件 设置 。 具 体 
来 说 ,动态 调度 超标 量 处 理 器 有 一 组 很 多 的 虚拟 寄存 器 ,可 以 用 来 保存 各 独立 线程 的 寄存 器 
组 (假设 每 个 线程 都 有 一 个 独立 的 重 命名 表 )。 由 于 寄存 器 重 命名 机 制 给 各 寄存 器 提供 了 唯 
一 的 标识 ,多 个 线程 的 指令 可 以 在 数据 路 径 上 混合 执行 ,而 不 会 导致 各 线程 之 间 源 操作 数 和 
目的 操作 数 的 混乱 。 这 表明 ,只 要 为 每 个 线程 设置 重 命名 表 、 分 别 设置 各 自 的 程序 计数 器 并 
为 多 个 线程 提供 指令 确认 的 能 力 , 则 多 线程 可 以 在 一 个 乱 序 执行 的 处 理 器 的 基础 上 实现 。 


2. 同时 多 线程 处 理 器 的 设计 


多 个 线程 的 混合 执行 不 可 避免 地 会 影响 单个 线程 的 执行 速度 ,类 似 的 问题 在 取 指 阶段 
也 存在 。 为 提高 单个 线程 的 性 能 ,应 该 为 指定 的 优先 线程 尽 可 能 多 地 向 前 取 指 (或 许 在 分 支 
指令 的 两 条 路 径 上 都 要 向 前 取 指 ), 并 且 在 分 支 预 测 失败 和 预 取 缓冲 器 不 命中 的 情况 下 清空 
取 指 单元 。 但 是 这 样 限制 了 其 他 线程 可 用 来 调度 的 指令 条 数 , 从 而 降低 了 吞吐 率 。 所 有 的 
多 线程 处 理 器 都 必须 在 这 里 寻求 一 种 折 中 方案 。 

实际 上 ,进行 资源 划分 以 及 在 单个 线程 性 能 和 多 个 线程 性 能 之 间 进 行 平衡 并 不 会 像 我 
们 想象 的 那么 复杂 ,至 少 对 于 目前 的 超标 量 处 理 器 来 说 是 这 样 。 例 如 ,对 于 现在 的 每 个 时 钟 
周期 流出 4 一 8 条 指令 的 计算 机 来 说 ,有 几 个 活跃 线程 就 够 了 ,优先 线程 就 更 少 了 。 只 要 一 
有 可 能 ,处 理 器 就 运行 指定 的 优先 线程 。 从 取 指 阶段 开始 就 优先 处 理 优先 线程 : 只 要 优先 
线程 的 指令 预 取 缓 冲 区 未 满 ,就 为 它们 优先 取 指 。 只 有 当 优先 线程 的 缓冲 区 填 满 以 后 才 为 
其 他 线程 预 取 指令 。 需 要 注意 的 是 , 当 有 两 个 优先 线程 时 ,意味 着 需要 并 发 预 取 两 条 指令 
流 , 这 给 取 指 部 件 和 指令 Cache 都 增添 了 复杂 度 。 同 样 地 ,指令 流出 单元 也 要 优先 考虑 指定 
的 优先 线程 ,只 有 当 优先 线 程 停顿 不 能 流出 的 时 候 才 考虑 其 他 线程 。 

下 面 是 设计 同时 多 线程 处 理 器 时 面临 的 其 他 主要 问题 。 

(1) 需要 设置 更 大 的 寄存 器 组 ,用 来 保存 多 个 线程 的 现场 。 

(2) 不 能 影响 时 钟 周期 ,特别 是 在 关键 路 径 上 ,如 指令 流出 和 指令 完成 。 指 令 流 出 时 ， 
有 更 多 的 候选 指令 需要 考虑 ; 在 指令 完成 时 ,选择 提交 哪些 指令 可 能 会 比较 困难 。 

(3) 需要 保证 由 于 并 发 执行 多 个 线程 带 来 的 Cache 冲突 和 TLB 冲突 不 会 导致 明显 的 
性 能 下 降 。 

在 考虑 这 些 问 题 时 ,需要 重视 以 下 两 个 实际 情况 : 第 一 ,在 许多 情况 下 ,多 线程 所 导致 
的 潜在 额外 性 能 开销 是 很 小 的 ,简单 的 线程 切换 选择 算法 就 足够 好 了 ; 第 二 ,目前 的 超标 量 
处 理 器 的 效率 是 比较 低 的 ,还 有 很 大 的 改进 余地 ,即使 增加 一 些 开 销 也 是 值得 的 。 

由 于 同时 多 线程 在 多 流出 超标 量 处 理 器 上 开发 线程 级 并 行 , 所 以 最 适合 于 应 用 到 面向 
服务 器 市 场 的 高 端 处 理 器 上 。 另 外 ,还 可 以 限定 多 线程 的 并 发 数量 ,这样 就 可 以 最 大 限度 地 
提高 单个 线程 的 性 能 。 
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3. 同时 多 线程 的 性 能 


一 个 具体 实例 的 模拟 结果 表明 ,在 超标 量 处 理 器 上 增添 8 个 线程 的 同时 多 线程 所 获得 
的 吞吐 率 的 提高 很 显著 , 达 1.7 一 4.2 倍 , 平 均 3 倍 。 同 时 多 线程 处 理 器 的 取 指 部 件 和 功能 
部 件 的 利用 率 大 为 提高 。 分 支 预测 的 精确 度 和 指令 Cache 的 命中 率 的 比较 同样 令 人 惊讶 : 
同时 多 线程 处 理 器 的 性 能 更 好 。 
超标 量 处 理 器 本 身 功 能 十 分 强大 , 它 具 有 很 大 的 一 级 Cache、 二 级 Cache 以 及 大 量 的 功 
能 部 件 。 仅 采用 指令 级 并 行 ,不 可 能 利用 全 部 的 硬件 性 能 ,因此 超标 量 处 理 器 的 设计 者 不 可 
能 不 考虑 使 用 诸如 同时 多 线程 这 样 的 技术 来 开发 线程 级 并 行 。 将 超标 量 和 同时 多 线程 结合 
起 来 ,在 指令 级 并 行 基础 上 进一步 开发 线程 级 并 行 ,可 以 获得 显著 的 性 能 提高 。 





10. 2.6 大 规模 并 行 处 理 机 MPP 


1. 并 行 计算 机 系统 结构 


目前 流行 的 高 性 能 并 行 计算 机 系统 结构 通常 可 以 分 成 以 下 5 类 。 

(1) 并 行 向 量 处 理 机 (Parallel Vector Processor, PVP); 

(2) 对 称 式 共享 存储 器 多 处 理 机 (Symmetric shared-memory MultiProcessor, SMP); 

(3) 分 布 式 共 享 存储 器 多 处 理 机 (Distributed Shared-memory MultiProcessor,DSM); 

(4) 大 规模 并 行 处 理 机 (Massively Parallel Processor, MPP); 

(5) 机 群 计算 机 (Cluster) 。 

1) 并 行 向 量 处 理 机 

PVP 系统 一 般 由 若干 台 高 性 能 向 量 处 理 机 (VP) 构 成 。 这 些 向 量 处 理 机 是 专门 设计 和 
定制 的 ,拥有 很 高 的 向 量 处 理性 能 。PVP 中 经 常 采用 专门 设计 的 高 带宽 的 交叉 开关 网 络 ， 
把 各 VP 与 共享 存储 器 模块 SM 连接 起 来 。 这 样 的 机 器 通常 不 使 用 Cache, 而 是 使 用 大 量 的 
向 量 寄存 器 和 指令 缓冲 器 。 

2) 对 称 式 共享 存储 器 多 处 理 机 和 分 布 式 共享 存储 器 多 处 理 机 

这 两 种 体系 结构 在 上 面 已 经 详细 讨论 过 ,这 里 不 再 重复 。 

3) 大 规模 并 行 处 理 机 

MPP 往往 是 超大 规模 的 计算 机 系统 。 它 具有 以 下 特点 。 

(1) 处 理 结 点 使 用 商用 微 处 理 器 ,而 且 每 个 结 点 可 以 有 多 个 微 处 理 器 ; 

(2) 具有 较 好 的 可 扩 放 性 ,能 扩展 成 具有 成 百 上 千 个 处 理 器 ; 

(3) 系统 中 采用 分 布 非 共 享 的 存储 器 ,各 结 点 有 自己 的 地 址 空间 ; 

(4) 采用 专门 设计 和 定制 的 高 性 能 互连网 络 ; 

(5) 采用 消息 传递 的 通信 机 制 。 

4) 机 群 计算 机 

机 群 是 一 种 价格 低廉 .易于 构建 .可 扩 放 性 极 强 的 并 行 计算 机 系统 。 它 由 多 台 同 构 或 异 
构 的 独立 计算 机 通过 高 性 能 网 络 或 局 域 网 互 连 在 一 起 ,协同 完成 特定 的 并 行 计算 任务 。 第 
12 章 将 专门 讨论 机 群 。 
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2. 大 规模 并 行 处 理 机 MPP 


1) MPP 的 出 现 和 发 展 

略 。 

2) MPP 系统 概述 

MPP 结构 的 一 个 重要 特性 是 可 扩 放 性 ,不 仅 处 理 器 的 数量 可 扩 放 至 数 千 个 处 理 器 ,而 
且 主 存 .IVO 能 力 和 带宽 也 能 随处 理 器 数量 的 增长 而 成 比例 地 增长 。MPP 主要 采用 了 以 下 
技术 来 提高 系统 的 可 扩 放 性 。 

(1) 使 用 物理 上 分 布 的 主 存 体系 结构 ,使 分 布 式 主 存 的 总 容量 和 总 带宽 能 随处 理 结 点 
数量 的 增加 而 增加 。 这 种 分 布 式 主 存 结构 比 集中 式 主 存 结构 具有 潜在 的 更 高 可 扩 放 性 。 

(2) 处 理 能 力 、 主 存 与 1/O 能 力 平衡 发 展 。 随 着 处 理 结 点 数量 的 增长 ,不仅 MPP 系统 
的 处 理 能 力 随 之 增长 ,而 且 系统 的 主 存 与 IO 能 力也 随 之 平衡 增长 。 如 果 系 统 的 主 存 与 1/ 
O 能 力 不 能 随处 理 能 力 的 提高 而 平衡 发 展 ,那么 ,高 速 的 处 理 能 力 就 毫 无 价值 。 

(3) 计算 能 力 与 并 行 性 平衡 发 展 。 一 个 计算 作业 可 分 解 成 多 个 任务 分 配 到 多 个 处 理 结 
点 上 并 行 执行 。 并 行 处 理 的 性 能 在 很 大 程度 上 依赖 于 计算 /通信 比率 ,如 果 这 个 比值 较 小 ， 
就 说 明 并 行进 程 /线程 管理 及 通信 同步 的 时 间 开 销 将 占有 作业 执行 时 间 的 较 大 部 分 。 因 此 ， 
MPP 的 计算 能 力 随处 理 结 点 数量 的 增长 而 增长 时 ,也 要 使 处 理 结 点 的 并 行 能 力 平衡 发 展 。 

Intel ASCI 系 统 遵 循 了 小 结 点 、. 紧 耦合 网 络 互 连 和 计算 结 点 的 微 内 核 操作 系统 ,是 一 种 
更 传统 的 MPP 方法 。 它 是 Intel Paragon MPP 系统 的 后 代 。SP2 和 Intel ASCI 都 是 使 用 
NORMA 访 存 模型 的 消息 传递 多 计算 机 , 结 点 间 通 信 依 靠 机 器 中 的 显 式 消 息 传递 。 

SGI/CrayOrigion 2000 代表 一 种 构造 MPP 的 不 同方 法 ,其 特征 为 一 个 可 全 局 存 取 的 物 
理 上 分 布 的 主 存 系统 ,使 用 硬件 支持 Cache 的 一 致 性 。 


10.2.7 多 处 理 机 实例 1: Tl 


在 近年 来 推出 的 处 理 器 中 ,Tl 是 独 具 特 色 的 一 个 , 它 把 重点 放 在 了 开发 线程 级 并 行 性 ， 
而 不 是 指令 级 并 行 性 。 它 在 一 块 芯片 上 集成 了 8 个 处 理 器 核 , 以 期 对 于 服务 器 应 用 程序 实 
现 高 吞吐 率 。 与 之 不 同 , 双 核 的 Power5 .Opteron、 Pentium D 则 是 采用 多 流出 和 多 核 技 术 。 
开发 大 量 ILP 并 行 性 需要 用 复杂 得 多 的 处 理 器 。 

除了 是 重点 开发 ILP 还 是 TLP 的 区 别 外 ,这 些 多 核 处 理 器 还 有 一 些 根本 的 不 同 ,包括 : 

(1) 它们 在 对 浮 点 运算 提供 的 支持 以 及 浮 点 运算 的 性 能 上 有 很 大 的 不 同 。Power5 主 
要 强调 浮 点 运算 的 性 能 ,Opteron 和 Pentium 也 为 浮 点 运算 分 配 了 大 量 的 资源 ,它们 都 包含 
大 量 的 浮 点 运算 硬件 。 而 Tl 则 几乎 忽略 了 这 方面 。 它 们 的 侧重 点 是 不 同 的 。 因 此 ,用 只 
包含 整数 运算 的 测试 程序 来 比较 这 几 个 处 理 器 的 性 能 是 不 合理 的 ,同样 地 ,用 只 包含 浮 点 运 
算 的 测试 程序 对 Tl 来 说 也 是 不 合理 的 。 

(2) 它们 的 多 处 理 器 扩展 能 力 不 同 ,这 对 存储 器 的 设计 以 及 外 部 接口 的 使 用 有 很 大 的 
影响 。Power5 的 可 扩展 性 是 最 好 的 ,Pentium 和 Opteron 也 对 多 处 理 器 扩展 提供 了 一 定 的 
支持 ,但 Tl 则 不 支持 扩展 成 更 大 的 系统 。 

(3) 所 用 的 实现 技术 差别 很 大 ,难以 对 它们 的 晶片 大 小 和 功 耗 进行 比较 。 
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(4) 对 存储 器 系统 及 其 带宽 的 要 求 不 同 。 对 于 像 TPC-C 这 类 Cache 不 命中 率 高 的 测 
试 程序 来 说 , 访 存 带 宽 高 的 处 理 器 占有 很 大 优势 。 

另外 ,还 有 一 些 模拟 结果 表明 ,对 于 SPECJBB05 和 类 TPC-C 测试 程序 来 说 ,T] 的 每 瓦 
性 能 要 比 其 他 处 理 器 的 高 很 多 。 这 至 少 说 明 对 于 多 线程 程序 来 说 ,在 每 瓦 性 能 方面 ,采用 
TLP 方 法 比 ILP 方法 要 有 效 得 多 。 显 然 ,现在 要 对 以 开发 TLP 为 主 的 方法 能 否 在 商业 上 
获得 成 功 做 出 结论 还 太 早 。 但 如 果 服 务 器 应 用 程序 中 有 足够 的 线程 来 使 得 Tl 充分 忙碌 ， 
而 且 每 线程 的 性 能 是 可 以 接受 的 ,那么 Tl 采用 的 方法 就 很 难 被 超越 。 如 果 在 服务 器 或 桌 
面 环境 中 单线 程 的 性 能 仍然 很 重要 ,我 们 将 会 看 到 市 场 的 进一步 分 化 ,会 出 现 各 种 面向 完全 
不 同 环境 的 处 理 器 ,包括 追求 高 吞吐 率 的 环境 和 追求 单一 线程 高 性 能 的 环境 等 。 


10.2.8 多 处 理 机 实例 2: Origin 2000 


SGI 公司 将 Cray Research 子 公司 的 开关 网 络 技术 与 SMP 系统 的 优点 结合 起 来 ,推出 
了 Origin 2000 系列 可 扩展 服务 器 产品 。 该 系列 包括 Origin 200、Origin 2000 Deskside、 
Origin 2000 Rack 和 Cray Origin 2000 共 4 种 机 器 。Origin 200 服务 器 是 入 门 级 的 系统 , 具 
有 中 等 扩充 能 力 , 最 多 可 以 达到 4 个 处 理 器 。Origin 2000 Deskside 桌面 服务 器 系统 支持 的 
处 理 器 数目 最 多 为 8 个 , Origin 2000 Rack 机 柜 服 务 器 系统 支持 的 处 理 器 数目 最 多 为 
16 个 ,Cray Origin 2000 服务 器 系统 具有 大 规模 扩充 能 力 ,支持 的 处 理 器 数目 最 多 可 达到 
128 个 。 

Origin 2000 系列 服务 器 产品 不 仅 具 有 SMP 的 易 编 程 和 平稳 扩充 特性 ,而 且 还 具有 
MPP 的 高 可 扩 放 性 ,应 用 非常 广泛 。 该 系列 服务 器 综合 平衡 了 高 性 能 、 可 扩 放 性 、 可 用 性 和 
兼容 性 ,能 满足 许多 应 用 的 需求 ,例如 ,可 作为 企业 .商业 金融 机 构 以 及 政府 机 构 的 信息 管理 
服务 器 ,可 用 于 Web 服务 、 数 据 仓库 、 可 视 化 服务 、 科 学 计算 、 图 像 处 理 和 仿真 等 。Origin 
2000 服务 器 系列 的 1/O 带宽 可 达 102GB/s, 系 统 传输 速率 比 同类 SMP 服务 器 快 几 十 倍 , 是 
处 理 、 存 储 和 传输 各 种 多 媒体 信息 的 理想 系统 。 





习 题 


1. 概念 题 


【是 10.1】 解释 以 下 名 词 
集中 式 共享 多 处 理 机 ”分布 式 共享 多 处 理 机 ”计算 /通信 比 。 多 Cache 一致 性 


写作 废 协议 写 更 新 协议 栅栏 同步 旋转 锁 
同时 多 线程 细 粒 度 多 线程 技术 粗 粒度 多 线程 技术 
SMP MPP 

2. 填空 题 


【是 10.2】 能 实现 指令 程序 任务 级 并 行 的 计算 机 系统 是 ; 
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【 题 10. 3】 多 处 理 机 结构 由 若干 台独 立 的 计算 机 组 成 ,每 台 计 算 机 能 够 独立 执行 自己 


的 


,Flynn 称 这 种 结构 为 结构 。 


【 题 10.4】 现 有 的 MIMD 机 器 可 分 为 和 两 类 。 每 一 类 代表 了 一 种 
存储 器 的 结构 和 互 连 策略 。 


【是 
数据 。 

【十 
机 制 。 

【是 


缓存 。 私 


【 题 
【 题 


0.5】 消息 传递 机 器 根据 简单 的 协议 ,通过 来 请 求 服 务 或 传送 
0.6】 对 应 于 两 种 地 址 空间 的 组 织 方案 ,分 别 有 和 两 种 通信 


0.7】 对 称 式 共享 存储 器 系统 结构 一 般 都 支持 对 共享 数据 和 私有 数据 的 Cache 
有 数据 是 指 ,而 共享 数据 则 是 指 

0.8〗 多 处 理 机 的 Cache 一 致 性 问题 是 指 。 

0.9】 实现 Cache 一 致 性 协议 的 关键 是 o 





【 题 10. 10〗 采用 目录 协议 解决 多 处 理 机 的 Cache 一 致 性 问题 时 ,根据 目录 的 结构 ,可 


以 把 目录 





【 题 
【 题 
问题 。 
【 题 
【 题 


协议 分 成 、 和 三 类 。 其 中 ,具有 可 扩展 性 的 目录 协议 是 
和 。 

0.11】 链 式 目录 有 和 两 种 实现 方法 。 

0.12】 在 基于 总 线 互 连 的 多 处 理 机 中 ,采用 协议 来 解决 Cache 一 致 性 











0.13】 实现 Cache 一 致 性 的 协议 有 和 两 类 。 
0.14】 Tl 是 作为 服务 器 处 理 器 发 布 的 多 核 多 处 理 器 。 每 个 Tl 处 理 器 中 有 
个 处 理 器 核 ,每 个 核 最 多 支持 个 线程 。 每 个 处 理 器 核 中 都 有 一 条 





段 的 单 流出 流水 线 。 


【是 


0. 15】 Origin 2000 的 关键 技术 包括 技术 和 





3. 问答 题 


【 题 
【是 
【 题 
【是 
【 题 
辑 地 址 空 
【是 
【 题 
【 题 
【是 
【 题 
【是 


0.16】 并 行 处 理 面临 着 哪 两 个 重要 的 挑战 ? 分 别 采用 什么 方法 解决 ? 

0.17】 共享 存储 器 通信 主要 有 哪些 优点 ? 

0.18】 消息 传递 通信 机 制 主要 有 哪些 优点 ? 

0.19】 在 分 布 式 多 处 理 机 中 将 存储 器 分 布 到 各 结 点 有 什么 好 处 ? 

0.20】 大 规模 的 多 处 理 机 中 ,存储 器 在 物理 上 是 分 布 于 各 个 处 理 结 点 中 。 在 逻 
间 的 组 织 方式 以 及 各 个 处 理 器 之 间 通 信 的 实现 上 ,有 哪 两 种 地 址 空间 的 组 织 方案 ? 
0.21】 简 述 共享 存储 器 通信 机 制 的 主要 优点 。 

0.22】 简 述 消息 传递 通信 机 制 的 主要 优点 。 

0.23】 在 实现 消息 传递 机 制 的 硬件 上 怎样 支持 共享 存储 器 通信 机 制 ? 

0.24】〗 简 述 多 处 理 机 中 产生 Cache 一 致 性 问题 的 原因 。 

0.25】 一 致 的 存储 系统 应 满足 哪 三 点 ? 

0.26】〗 什么 是 共享 数据 的 迁移 和 复制 ? 这 么 做 的 原因 是 什么 ? 





【 题 10.27】 什么 是 多 处 理 机 的 Cache 一 致 性 协议 ? 给 出 解决 一 致 性 的 监听 协议 和 目 


录 协 议 的 


工作 原理 。 
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【 题 10. 28】 简 述 写 更 新 协议 和 写作 废 协 议 性 能 上 的 差别 。 

【 题 10. 29】 简 述 细 粒 度 多 线程 技术 与 粗 粒 度 多 线程 技术 的 优 缺 点 。 

【是 10. 30】 目前 流行 的 高 性 能 并 行 计算 机 系统 结构 通常 可 以 分 成 哪 5 类 ? 
【 题 10. 31】 简 述 超大 规模 计算 机 系统 MPP 的 特点 。 


4. 应 用 题 


【 题 10.32】 一 个 具有 32 台 处 理 机 的 系统 ,对 远程 存储 器 访问 时 间 是 2000ns。 除 了 通 
信 以 外 ,假设 计算 中 的 访问 均 命 中 局 部 存储 器 。 当 发 出 一 个 远程 请 求 时 ,本 地 处 理 机 挂 起 。 
处 理 机 的 时 钟 周期 时 间 是 10ns ,假设 指令 基本 的 CPI 为 1.0( 设 所 有 访 存 均 命 中 Cache)。 
对 于 下 述 两 种 情况 : 

(1) 没有 远程 访问 ; 

(2) 0.5% 的 指令 需要 远程 访问 。 

试问 前 者 比 后 者 快 多 少 ? 

【 题 10. 33】 在 基于 总 线 的 小 型 多 处 理 器 系统 上 ,将 基于 监听 的 Cache 一 致 性 协议 应 
用 于 写 直 达 Cache, 采 用 不 按 写 分 配 , 采 用 写作 废 协议 。 夯 出 Cache 块 的 状态 转换 图 。 

【 题 10.34】 在 标准 的 栅栏 同步 中 , 设 单个 处 理 器 的 通过 时 间 ( 包 括 更 新 计数 和 释放 
锁 ) 为 C, 求 N 个 处 理 器 一 起 进行 一 次 同步 所 需要 的 时 间 。 

【 题 10. 35】 采用 排队 锁 和 fetch-and-increment 重新 实现 栅栏 同步 ,并 将 它们 分 别 与 
采用 旋转 锁 实 现 的 栅栏 同步 进行 性 能 比较 。 

【 题 10. 36】 假设 某 条 总 线 上 有 10 个 处 理 器 同时 准备 对 同一 变量 加 锁 。 如 果 每 个 总 
线 事务 处 理 ( 读 不 命中 或 写 不 命中 ) 的 时 间 是 100 个 时 钟 周期 ,而且 忽略 对 已 调和 人 Cache 中 
的 锁 进 行 读 写 的 时 间 以 及 占用 该 锁 的 时 间 。 

(1) 假设 该 锁 在 时 间 为 0 时 被 释放 ,并 且 所 有 处 理 器 都 在 旋转 等 待 该 锁 。 问 : 所 有 10 
个 处 理 器 都 获得 该 锁 所 需 的 总 线 事务 数目 是 多 少 ? 

(2) 假设 总 线 是 非常 公平 的 ,在 处 理 新 请 求 之 前 ,要 先 全 部 处 理 好 已 有 的 请 求 。 并 且 各 
处 理 器 的 速度 相同 。 问 : 处 理 10 个 请 求 大 概 需要 多 少时 间 ? 

【 题 10.37】 有 些 机 器 实现 了 专门 的 锁 广播 一 致 性 协议 ,实现 上 可 能 使 用 不 同 的 总 线 。 
假设 使 用 写 广 播 协议 ,重新 给 出 题 10. 36 旋转 锁 的 时 间 计算 。 


题 解 


1. 概念 题 


【 题 10.1】 解释 以 下 名 词 

集中 式 共享 多 处 理 机 一 一 也 称 为 对 称 式 共享 存储 器 多 处 理 机 SMP。 它 一 般 由 几 十 个 
处 理 器 构成 ,各 处 理 器 共享 一 个 集中 式 的 物理 存储 器 ,这 个 存储 器 相对 于 各 处 理 器 的 关系 是 
对 称 的 。 

分 布 式 共 享 多 处 理 机 一 一 它 的 共享 存储 器 分 布 在 各 台 处 理 机 中 ,每 台 处 理 机 都 带 有 自 
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己 的 本 地 存储 器 ,组 成 一 个 “处 理 机 -存储 器 ”单元 。 但 是 这 些 分 布 在 各 台 处 理 机 中 的 实际 存 
储 器 又 合 在 一 起 统一 编 址 ,在 逻辑 上 组 成 一 个 共享 存储 器 。 这 些 处 理 机 存储 器 单元 通过 互 
连 网 络 连接 在 一 起 ,每 台 处 理 机 除了 能 访问 本 地 存储 器 外 ,还 能 通过 互连网 络 直接 访问 在 其 
他 处 理 机 存储 器 单元 中 的 “远程 存储 器 ”。 

计算 /通信 比 一 一 反映 并 行程 序 性 能 的 一 个 重要 的 度量 。 在 并 行 计算 中 , 它 是 指 每 次 数 
据 通信 要 进行 的 计算 与 通信 开销 的 比值 。 

多 Cache 一 致 性 一 一 多 处 理 机 中 , 当 共 享 数 据 进入 Cache, 就 可 能 出 现 多 个 处 理 器 的 
Cache 中 都 有 同一 存储 器 块 的 副本 , 当 其 中 某 个 处 理 器 对 其 Cache 中 的 数据 进行 修改 后 ,就 
会 使 得 其 Cache 中 的 数据 与 其 他 Cache 中 的 数据 不 一 致 。 

写作 废 协议 一 一 在 处 理 器 对 某 个 数据 项 进行 写 入 之 前 , 它 需 拥有 对 该 数据 项 的 唯一 的 
访问 权 。 这 是 通过 作废 其 他 Cache 中 的 副本 来 实现 。 

写 更 新 协议 一 一 当 一 个 处 理 器 对 某 数据 项 进行 写 人 时 , 它 把 该 新 数据 广播 给 所 有 其 他 
Cache。 这 些 Cache 用 该 新 数据 对 其 中 的 副本 进行 更 新 。 

栅栏 同步 一 一 栅栏 强制 所 有 到 达 该 栅栏 的 进程 进行 等 待 。 直 到 全 部 的 进程 到 达 栅 栏 ， 
然后 释放 全 部 进程 ,从 而 形成 同步 。 

旋转 锁 一 一 处 理 机 环绕 一 个 锁 不 停 地 旋转 而 请 求 获得 该 锁 。 

同时 多 线程 一 一 是 一 种 在 多 流出 、 动 态 调度 的 处 理 器 上 同时 开发 线程 级 并 行 和 指令 级 
并 行 的 技术 , 它 是 多 线程 技术 的 一 种 改进 。 

细 粒 度 多 线程 技术 一 一 是 一 种 实现 多 线程 的 技术 。 它 在 每 条 指令 之 间 都 能 进行 线程 的 
切换 ,从 而 使 得 多 个 线程 可 以 交替 执行 。 通常 以 时 间 片 轮转 的 方法 实现 这 样 的 交替 执行 ,在 
轮转 的 过 程 中 跳 过 处 于 停顿 的 线程 。 

粗 粒 度 多 线程 技术 一 一 是 一 种 实现 多 线程 的 技术 。 只 有 线程 发 生 较 长 时 间 的 停顿 时 才 
切换 到 其 他 线程 。 

SMP 一 一 对 称 式 共享 存储 器 多 处 理 机 。 

MPP 一 一 即 大 规模 并 行 处 理 , 按 照 当 前 的 标准 ,具有 几 百 台 至 几 千 台 处 理 机 的 任何 机 
器 都 是 大 规模 并 行 处 理 系统 。 





2. 填空 题 

【 题 10.2】 答 : MIMD 

【 题 10.3】 答 : 程序 、MIMD 

【 题 10.4】 答 : 集中 式 共 享 存储 器 结构 、 分 布 式 存储 器 结构 

【 题 10.5〗 答 : 网 络 、 传 递 消息 

【 题 10.6】 答 : 共享 存储 器 、 消 息 传递 

【 题 10.7】 答 : 只 供 一 个 处 理 器 使 用 的 数据 、 供 多 个 处 理 器 共同 使 用 的 数据 

【 题 10.8】 答 : 不 同 处 理 机 的 Cache 中 同一 地 址 的 数据 块 可 能 不 一 致 ,Cache 与 共享 
主 存 中 同一 地 址 的 数据 块 也 可 能 不 一 致 

【 题 10.9】 答 : 跟踪 共享 数据 块 的 状态 

【 题 10.10】 答 : 全 映像 目录 、 有 限 映像 目录 、 链 式 目 录 、 有 限 映像 目录 、 链 式 目录 

【 题 10.11】 答 : 单 链 法 、 双 链 法 
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【 题 10.12】 答 : 总 线 监听 

【 题 10.13】 答 : 目录 式 协议 ,监听 式 协议 

【 题 10.14】 答 : 8、4.6 

【是 10.15】〗 答 : CrayLink 开关 网 络 、Cellular IRIX 操作 系统 
3. 问答 题 


【是 10.16】 答 : @ 程 序 中 有 限 的 并 行 性 。 通 过 采用 并 行 性 更 好 的 算法 来 解决 。@ 相 
对 较 高 的 通信 开销 。 减 少 远程 访问 延迟 主要 靠 系统 结构 支持 和 编程 技术 。 

【是 10.17】 答 : @ 与 常用 的 集中 式 多 处 理 机 使 用 的 通信 机 制 兼容 。@ 当 处 理 器 通信 
方式 复杂 或 程序 执行 动态 变化 时 易于 编程 ,同时 在 简化 编译 器 设计 方面 也 占有 优势 。@ 当 
通信 数据 较 少 时 ,通信 开销 较 低 , 带 宽 利用 较 好 。@ 通 过 硬件 控制 的 Cache 减少 了 远程 通信 
的 频 度 ,减少 了 通信 延迟 以 及 对 共享 数据 的 访问 冲突 。 

【 题 10.18〗 答 : @ 硬 件 较 简单 。@@ 通 信 是 显 式 的 ,从 而 引起 编程 者 和 编译 程序 的 注 
意 ,着 重 处 理 开销 大 的 通信 。 

【 题 10. 19】 答 : 如 果 大 多 数 的 访问 是 针对 本 结 点 的 局 部 存储 器 , 则 可 降低 对 存储 器 
和 互连网 络 的 带宽 要 求 ; 四 对 局 部 存储 器 的 访问 延迟 较 小 。 

【是 10.20】 答 : @ 第 一 种 方案 : 物理 上 分 离 的 多 个 存储 器 作为 一 个 逻辑 上 共享 的 存 
储 空间 进行 编 址 。 处 理 器 之 间 是 通过 用 load 和 store 指令 对 相同 存储 器 地 址 进行 读 / 写 操 
作 来 实现 的 。@ 第 二 种 方案 : 把 每 个 结 点 中 的 存储 器 编 址 为 一 个 独立 的 地 址 空间 ,不 同 结 
点 中 的 地 址 空间 之 间 是 相互 独立 的 。 即 整个 地 址 空间 由 多 个 独立 的 地 址 空间 构成 ,它们 在 
逻辑 上 也 是 独立 的 ,远程 的 处 理 器 不 能 对 其 直接 寻 址 。 各 处 理 机 之 间 采 用 消息 传递 通信 机 
制 进行 通信 ,数据 通信 要 通过 在 处 理 器 之 间 显 式 地 传递 消息 来 完成 。 

【 题 10.21】 答 : (1) 与 常用 的 对 称 式 多 处 理 机 使 用 的 通信 机 制 兼容 。 

(2) 当 处 理 器 之 间 通 信 方 式 复 杂 或 在 执行 过 程 中 动态 变化 时 ,采用 共享 存储 器 通信 , 编 
程 容易 ,同时 在 简化 编译 器 设计 方面 也 占有 优势 。 

(3) 采用 大 家 所 熟悉 的 共享 存储 器 模型 开发 应 用 程序 ,而 把 重点 放 到 解决 对 性 能 影响 
较 大 的 数据 访问 上 。 

(4) 当 通 信 数 据 量 较 小 时 ,通信 开销 较 低 ,带宽 利用 较 好 。 

(5) 可 以 通过 采用 Cache 技术 来 减少 远程 通信 的 频 度 。 这 是 通过 对 所 有 数据 (包括 共 
享 的 和 私有 的 ) 进 行 Cache 缓冲 来 实现 的 。 

【是 10.22】 答 : (1) 硬件 更 简单 。 特 别 是 在 与 可 扩 放 共享 存储 器 实现 方案 相 比 时 更 
是 如 此 。 

(2) 通信 是 显 式 的 ,因此 更 容易 搞 清 楚 何 时 发 生 通 信 以 及 通信 开销 是 多 少 。 

(3) 显 式 通信 可 以 让 编程 者 重点 注意 并 行 计算 的 主要 通信 开销 ,使 之 有 可 能 开发 出 结 
构 更 好 、 性 能 更 高 的 并 行程 序 。 

(4) 同步 很 自然 地 与 发 送 消息 相关 联 , 能 减少 不 当 的 同步 带 来 错误 的 可 能 性 。 

【 题 10.23】 答 : 所 有 对 共享 存储 器 的 访问 均 要 求 操作 系统 提供 地 址 转换 和 存储 保护 
功能 ,即将 存储 器 访问 转换 为 消息 的 发 送 和 接收 。 

【 题 10.24】 答 : Cache 的 引进 对 I/O 操作 产生 了 一 致 性 问题 ,因为 Cache 中 的 内 容 
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可 能 与 由 1/O 子 系统 输入 输出 形成 的 存储 器 对 应 部 分 的 内 容 不 同 。@ 对 共享 数据 ,不 同 处 
理 器 的 Cache 都 保存 有 对 应 存储 器 单元 的 内 容 , 因 而 在 操作 中 就 可 能 产生 数据 的 不 一 致 。 

【 题 10.25】 答 : (1) 处 理 器 P 在 对 存储 单元 X 进行 一 次 写 之 后 又 对 X 进行 读 ,在 这 
读 和 写 之 间 没 有 其 他 处 理 器 对 X 进行 写 , 则 P 读 到 的 值 总 是 刚 写 进去 的 值 。 

(2) 处 理 器 P 对 存储 单元 X 进行 写 之 后 , 另 一 处 理 器 Q 对 X 进行 读 ,在 这 读 和 写 之 间 
没有 其 他 对 的 写 , 则 Q 读 到 的 值 应 为 P 写 进去 的 值 。 

(3) 对 同一 存储 单元 的 写 是 串 行 化 的 。 即 任意 两 个 处 理 器 对 同一 存储 单元 的 两 次 写 ， 
从 各 个 处 理 器 的 角度 看 来 顺序 都 是 相同 的 。 

【 题 10.26】 答 : 共享 数据 的 迁移 是 把 远程 的 共享 数据 复制 一 份 , 迁 入 本 地 Cache 供 本 
处 理 器 使 用 。 这 是 为 了 减少 对 远程 共享 数据 的 访问 延迟 ,减少 对 共享 存储 器 带宽 的 要 求 。 

共享 数据 的 复制 则 是 把 多 个 处 理 器 需要 同时 读 取 的 共享 数据 在 这 些 处 理 器 的 本 地 
Cache 中 各 存放 一 个 副本 。 复 制 不 仅 可 以 减少 访问 共享 数据 的 延迟 ,还 可 减少 访问 共享 数 
据 所 产生 的 冲突 。 

【 题 10.27】 答 : (1) 对 多 个 处 理 器 维护 一 致 性 的 协议 称 为 多 Cache 一 致 性 协议 。 

(2) 目录 协议 的 工作 原理 : 采用 一 个 集中 的 数据 结构 一 一 目录 。 对 于 存储 器 中 的 每 一 
个 可 以 调和 人 Cache 的 数据 块 , 在 目录 中 设置 一 条 目录 项 ,用 于 记录 该 块 的 状态 以 及 哪些 
Cache 中 有 副本 等 相关 信息 。 目 录 协 议 根 据 该 项 目 中 的 信息 以 及 当前 要 进行 的 访问 操作 ， 
依次 对 相应 的 Cache 发 送 控制 消息 ,并 完成 对 目录 项 信息 的 修改 。 此 外 ,还 要 向 请 求 处 理 器 
发 送 响应 信息 。 

(3) 监听 协议 的 工作 原理 : 每 个 Cache 除了 包含 物理 存储 器 中 块 的 数据 副本 之 外 ,也 
保存 着 各 个 块 的 共享 状态 信息 。Cache 通常 连 在 共享 存储 器 的 总 线 上 , 当 某 个 Cache 需要 
访问 存储 器 时 , 它 会 把 请 求 放 到 总 线 上 广播 出 去 ,其 他 各 个 Cache 控制 器 通过 监听 总 线 来 判 
断 它们 是 否 有 总 线 上 请 求 的 数据 块 。 如 果 有 ,就 进行 相应 的 操作 。 

【 题 10.28】 答 : (1) 对 同一 数据 的 多 个 写 而 中 间 无 读 操作 的 情况 , 写 更 新 协议 需 进行 
多 次 写 广播 操作 ,而 在 写作 废 协议 下 只 需 一 次 作废 操作 。 

(2) 对 同一 块 中 多 个 字 进 行 写 , 写 更 新 协议 对 每 个 字 的 写 均 要 进行 一 次 广播 ,而 在 写作 
废 协议 下 仅 在 对 本 块 第 一 次 写 时 进行 作废 操作 即 可 。 写 作废 是 针对 Cache 块 进行 操作 ,而 
写 更 新 则 是 针对 字 ( 或 字 节 ) 进 行 操作 。 

(3) 从 一 个 处 理 器 写 到 另 一 个 处 理 器 读 之 间 的 延迟 通常 在 写 更 新 模式 中 较 低 , 因 为 它 
写 数据 时 马上 更 新 了 相应 的 其 他 Cache 中 的 内 容 ( 假 设 读 的 处 理 器 Cache 中 有 此 数据 )。 而 
在 写作 废 协议 中 ,需要 读 一 个 新 的 副本 。 

【 题 10.29】 答 : (1) 细 粒 度 多 线程 技术 的 主要 优点 是 不 仅 能 够 隐藏 由 长 时 间 停 顿 引 
起 的 吞吐 率 的 损失 ,而 且 能 够 隐藏 由 短 时 间 停 顿 带 来 的 损失 。 其 主要 的 缺点 是 减 慢 了 单个 
线程 的 执行 ,这 是 因为 即使 没有 任何 停顿 的 线程 也 不 能 连续 执行 ,而 是 会 因 其 他 线程 的 指令 
的 插入 执行 而 被 延迟 。 

(2) 粗 粒度 多 线程 技术 减少 了 线程 切换 次 数 ,并 且 也 不 太 会 降低 单个 线程 的 执行 速度 ， 
但 它 减 少 吞吐 率 损失 的 能 力 有 限 ,特别 是 对 于 较 短 的 停顿 来 说 更 是 如 此 。 

【 题 10.30】 答 : 

(1) 并 行 向 量 处 理 机 PVP; 
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(2) 对 称 式 共 享 存储 器 多 处 理 机 SMP; 

(3) 分 布 式 共享 存储 器 多 处 理 机 DSM; 

(4) 大 规模 并 行 处 理 机 MPP; 

(5) 机 群 计算 机 Cluster。 

【 题 10.31】〗】 答 

(1) 处 理 结 点 使 用 商用 微 处 理 器 ,而 且 每 个 结 点 可 以 有 多 个 微 处 理 器 ，; 
(2) 具有 较 好 的 可 扩 放 性 ,能 扩展 成 具有 成 百 上 千 个 处 理 器 ; 

(3) 系统 中 采用 分 布 非 共 享 的 存储 器 ,各 结 点 有 自己 的 地 址 空间 ; 

(4) 采用 专门 设计 和 定制 的 高 性 能 互连网 络 ; 

(5) 采用 消息 传递 的 通信 机 制 。 


4. 应 用 题 


【 题 10. 32】 
解 : 已 知 远程 访问 率 p= 二 0.5% ,远程 访问 时 间 :一 2000ns, 时 钟 周期 T 一 10ns 
远程 访问 开销 C=t/T==2000ns/10ns 二 200( 时 钟 周期 数 ) 
有 0.5% 远 程 访问 的 机 器 的 实际 CP 为: 
CPI;=CPL+pXC=1.0+0.5%X200=2.0 
只 有 局 部 访问 的 机 器 的 基本 CPL 二 1.0 
CPI,/ CPL =2.0/1.0=2( 售 ) 
因此 ,没有 远程 访问 状态 下 的 机 器 速度 是 有 0.5% 远 程 访问 的 机 器 速度 的 2 倍 。 
【 题 10. 33】 
解 : 写作 废 协议 中 (采用 写 直达 法 ),Cache 块 的 状态 转换 图 : 响应 来 自 CPU 的 请 求 
(图 10.1)。 


CPU 写 命中 /发 Invalidate 







CPU 读 命中 
CPU 读 命中 CPU 读 不 命中 /发 RdMiss 
CPU 读 不 命中 /发 RdMiss 





CPU 写 
CPU 写 不 命中 / 
发 Invalidate 
CPU 读 /发 RdMiss 
1: 无 效 (Invalid) CPU 写 


S: 共享 (Shared)， 只 读 
M : 已 修改 (Modified)， 可 读 写 


图 10.1 Cache 块 的 状态 转换 图 : 响应 来 自 CPU 的 请 求 


写作 废 协议 中 (采用 写 直 达 法 ) ,Cache 块 的 状态 转换 图 : 响应 来 自 总 线 的 请 求 (图 10. 2) 。 

【是 10. 34】 

解 : 我 们 忽略 读 写 锁 的 时 间 。N 个 处 理 器 中 的 每 一 个 都 需要 C 个 时 钟 周期 来 锁 住 与 栅 
栏 相关 的 计数 器 ,修改 它 的 值 , 然 后 释放 锁 。 考 虑 最 坏 情况 ,所 有 NN 个 处 理 器 都 要 对 计数 器 
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RdMiss 






Invalidate 


Invalidate 


10.2 Cache 块 的 状态 转换 图 : 响应 来 自 总 线 的 请 求 
加 锁 并 修改 它 的 值 ,由 于 锁 只 能 顺序 访问 计数 器 ,在 同一 时 间 , 只 能 有 一 个 处 理 器 修改 计数 
器 的 数据 。 所 以 ,总共 要 花 NC 个 时 钟 周期 使 得 所 有 的 处 理 器 都 到 达 数 据 栅 栏 。 
【 题 10. 35】 


解 : fetch- and- increment(count); 


if (count = total){ // 进 程 全 部 到 达 
count = 0; // 重 置 计数 器 
release =1; // 释 放 进 程 
} 

else{ // 还 有 进程 未 到 达 
spin(release = 1); // 等 待 信号 


} 

当 有 N 个 处 理 器 时 ,上 述 代 码 执行 fetch-and-increment 操作 N 次 , 当 访 问 释放 操作 的 
时 候 , 有 N 个 Cache 未 命中 。 当 最 后 一 个 处 理 器 到 达 栅 栏 条 件 后 ,release 被 置 为 "1”, 此 时 
有 N 一 1 个 Cache 未 命中 (对 于 最 后 一 个 到 达 栅 栏 的 处 理 器 , 当 它 读 release 的 时 候 ,将 在 主 
存 中 命中 ) 。 所 以 ,共有 3N 一 1 次 总 线 传输 操作 。 如 果 有 10 个 处 理 器 , 则 共有 29 次 总 线 传 
输 操 作 ,总 共 需 要 2900 个 时 钟 周期 。 

【 题 10. 36】 

解 : 当 ; 个 处 理 器 争 用 锁 的 时 候 , 它 们 都 各 自 完 成 以 下 操作 序列 ,每 一 个 操作 产生 一 个 
总 线 事务 。 

(1) 访问 该 锁 的 i 个 LL 指令 操作 ; 

(2) 试图 占用 该 锁 ( 并 上 锁 ) 的 i 个 SC 指令 操作 ; 

(3) 一 个 释放 锁 的 存 操作 指令 。 

因此 对 于 i 个 处 理 器 来 说 ,一 个 处 理 器 获得 该 锁 所 要 进行 的 总 线 事 务 的 个 数 为 2i 十 1。 
这 里 假设 关键 代码 段 的 执行 时 间 可 以 忽略 不 计 。 

假设 一 共有 个 处 理 器 。 在 最 开始 时 ,共有 个 处 理 器 在 争 用 该 锁 , 一 个 处 理 器 胜出 ， 
完成 执行 后 释放 该 锁 ,其 总 线 事务 的 个 数 为 2z 十 1; 接 下 来 , 剩 下 的 ”一 1 个 处 理 器 继续 争 用 
该 锁 , 其 总 线 事 务 的 个 数 为 2(n 一 1) 十 1; 其 余 以 此 类 推 。 由 此 可 知 ,总 的 总 线 事务 个 数 为 : 


D921) 三 n(n 二 1D) 二 n= 十 2n 
i=1 


250 


计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





对 于 
【是 1 





10 个 处 理 器 来 说 ,其 总 线 事务 数 为 120 个 ,需要 12 000 个 时 钟 周期 。 
0.37】 


解 : 当 实 现 了 专门 的 锁 广播 一 致 性 协议 后 ,每 当 一 把 锁 被 释放 的 时 候 , 和 锁 相 关 的 值 将 
被 广播 到 所 有 处 理 器 ,这 意味 着 在 处 理 器 对 锁 变量 进行 读 操 作 的 时 候 ,未 命中 的 情况 永远 不 


会 发 生 。 


假定 每 个 Cache 都 有 一 个 数据 块 保留 锁 变 量 的 初 值 。 通 过 表 10. 1 可 以 知道 ,10 次 上 
锁 / 释 放 锁 的 平均 时 间 是 550 个 时 钟 周期 ,总 时 间 是 5500 个 时 钟 周期 。 


表 10.1 旋转 锁 的 时 间 计 算 

















事 件 持续 时 间 
所 有 处 理 器 都 读 (命中 ) 锁 0 
释放 锁 的 处 理 器 进行 写 (不 命中 ) 广 播 100 
读 (命中 ) 锁 (处 理 器 认为 锁 是 空闲 的 ) 0 
一 个 处 理 器 进行 写 交换 广播 ,同时 还 有 9 个 写 广播 1000 
一 个 处 理 器 得 到 并 释放 锁 的 总 时 间 1100 





第 11 章 多核 架构 与 编程 


11.1 基本 要 求 与 难点 


11.1.1 基本 要 求 


(1) 掌握 对 多 核 架 构 的 需求 。 

(2) 掌握 多 核 组 织 结构 以 及 Intel x86 和 ARM11 MPCore 多 核 架 构 。 
(3) 掌握 并 行 编程 模型 .并行 语言 和 并 行 算法 。 

(4) 理解 几 个 多 核 编 程 实例 。 


jE 淮 点 


(1) 为 什么 要 采用 多 核 ? 
(2) 多 核 架 构 。 
(3) 面向 多 核 的 编程 方法 及 实例 。 


11.2 知识 要 点 


多 核 处 理 器 又 称 芯片 多 处 理 器 (Chip Multiprocessor,CMP) ,是 指 在 单个 芯片 内 集成 两 
个 或 多 个 处 理 器 。 其 中 ,芯片 内 的 每 个 处 理 器 称 作 * 核 ”, 包 含 一 套 全 部 独立 的 处 理 器 部 件 ， 
如 寄存 器 .ALU 流水线 硬件 .指令 Cache 和 数据 Cache 等 。 除 了 多 个 核 之 外 ,现代 多 核 芯 
片 还 包含 共享 的 或 独立 的 第 二 级 (L2)Cache 甚至 第 三 级 (L3)Cache。 


11.2.1 多 核 架构 的 需求 


自从 电子 计算 机 诞生 以 来 , 微 处 理 器 系统 性 能 上 的 增长 主要 来 源 于 两 个 方面 : 一 是 时 
钟 频率 的 提高 ; 二 是 处 理 器 芯片 体系 结构 的 改进 。 其 中 ,体系 结构 的 改进 主要 体现 在 并 行 
度 的 不 断 增加 方面 。 但 在 单 核 处 理 器 系统 中 ,无 论 是 时 钟 频率 ,还 是 并 行 度 都 已 接近 了 极 
限 ,很 难 再 进一步 地 提高 了 ,这 时 就 需要 采用 更 为 先进 的 多 核 技术 。 

多 核 技术 的 好 处 非常 明显 。 首 先 ,由 于 计算 系统 拥有 多 个 执行 内 核 ,可 以 同时 进行 并 行 
运算 ,因此 可 以 显著 提升 系统 的 计算 能 力 , 同 时 每 个 内 核 的 主 频 可 以 比 以 前 低 , 因 而 系统 的 


252 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





总 体 功 耗 增加 不 大 。 其 次 ,与 多 CPU 技术 相 比 ,多 核 处 理 器 采用 了 与 单 CPU 相同 的 硬件 
体系 结构 ,用 户 在 提升 计算 能 力 的 同时 无 须 进行 任何 硬件 上 的 改变 。 然 而 ,要 真正 发 挥 多 核 
的 潜能 却 并 不 容易 ,因为 针对 多 核 或 多 线程 的 软件 开发 要 比 单 核 或 单线 程 编 程 工作 艰难 得 
多 。 而 今 , 随 着 多 核 的 普及 ,如 何 开发 与 多 核 相 适应 的 软件 日 益 成 为 研究 人 员 所 关注 的 热点 
问题 。 


1. 功 耗 与 散热 问题 


随 着 芯片 密度 和 时 钟 频率 的 不 断 提 高 ,系统 的 功 耗 呈 现 出 指数 性 增长 的 趋势 。 功 耗 的 
过 快 增长 ,一 方面 会 增加 用 户 的 使 用 成 本 , 另 一 方面 还 会 给 系统 设计 工程 师 带 来 诸如 散热 等 
诸多 难题 。CPU 的 发 热量 主要 取决 于 处 理 器 的 密度 和 时 钟 频率 这 两 个 主要 因素 ,与 两 者 是 
正比 关系 。 

在 传统 的 体系 结构 中 ,每 一 代 处 理 器 所 产生 的 热量 增加 率 都 要 大 于 时 钟 频 率 的 增加 率 。 
因此 ,在 一 些 高 端 处 理 器 的 应 用 中 ,采用 风扇 散热 的 方式 已 经 不 能 满足 系统 的 要 求 了 , 取 而 
代 之 的 是 液体 散热 方法 ,如 水 冷 . 液 氮 等 技术 。 所 以 , 受 功率 和 散热 方法 的 限制 ,时 钟 频率 不 
能 无 限制 地 增加 。 

另 一 方面 ,控制 功率 密度 (芯片 密度 ) 也 是 一 种 有 效 的 降低 功 耗 的 方法 ,而 控制 芯片 密度 
的 一 种 主要 方法 就 是 使 用 更 大 面积 的 Cache 存储 芯片 。Cache 的 晶体 管 相 对 较 小 ,功率 密 
度 也 比 多 辑 电路 的 要 小 。 为 了 降低 系统 功 耗 ,Cache 占 整 个 芯片 面积 的 百分比 比重 越 来 越 
大 , 随 着 芯片 内 晶体 管 密度 的 增加 ,其 面积 逐渐 超过 了 50%% 。 


2. 并 行 度 问 题 


处 理 器 设计 中 ,组 织 的 变化 主要 集中 在 增加 指令 级 并 行 度 上 ,以 便 使 处 理 器 每 个 时 钟 能 
做 更 多 的 工作 。 按 照 时 间 的 顺序 ,这 些 变 化 主要 包括 流水 线 技术 、 超 标量 技术 和 同时 多 线程 
技术 等 。 就 流水 线 技术 而 言 , 流 水 段 越 来 越 多 ; 但 是 ,在 实际 的 实现 中 ,肯定 会 存在 着 流水 
段 上 限 。 因 为 流水 段 越 多 ,逻辑 电路 、 互 连结 构 以 及 控制 信号 就 越 复 杂 。 就 超标 量 技术 而 
言 , 超 标量 组 织 也 是 通过 增加 并 行 流 水 线 的 个 数 来 提高 性 能 的 。 同 样 , 随 着 流水 线 个 数 的 增 
加 ,需要 更 复杂 的 逻辑 管理 冲突 和 调度 指令 使 用 资源 ,因此 所 获取 的 收益 越 来 越 小 。 冲 突 和 
资源 依赖 往往 会 造成 多 流水 线 不 能 充分 利用 ,甚至 单个 线程 就 能 让 并 行 流水 线 饱和 。 就 
SMT 技术 而 言 ,线程 在 一 组 流水 线 上 调度 的 复杂 度 也 往往 会 限制 线程 的 个 数 和 可 有 效 利用 
的 流水 线 的 个 数 ,因此 性 能 的 改进 也 是 有 限 的 。 

随 着 系统 结构 复杂 度 的 进一步 提高 ,处理 器 芯片 的 设计 和 制造 也 会 存在 一 些 问题 。 对 
于 超 长 流水 线 、 超 标量 流水 线 和 多 寄存 器 体 的 SMT 而 言 ,逻辑 电路 复杂 度 的 增加 意味 着 控 
制 和 信号 传送 所 占 面 积 的 增加 ,导致 苹 片 设计 、 制 造 和 调试 难度 的 增加 。 因 此 , 受 控 制 逻辑 
复杂 度 的 限制 ,流水 线 的 宽度 和 深度 都 是 有 限 的 。 因 此 ,要 想 进一步 增加 并 行 度 ,又 不 增加 
控制 的 复杂 度 , 只 能 选择 增加 处 理 器 的 “ 核 ” 数 。 


3. 应 用 软件 的 问题 


目前 的 绝 大 部 分 应 用 软件 ,特别 是 互联 网 应 用 软件 都 是 面向 多 用 户 的 多 线程 软件 ,这 就 
需要 计算 机 硬件 系统 在 结构 上 能 很 好 地 支持 线程 化 的 软件 ,才能 符合 Amdahl 定律 的 要 求 。 
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现在 的 数据 库 管 理 软件 .数据 库 应 用 等 服务 器 软件 ,一 般 要 并 行 处 理 大 量 的 .相对 独立 的 事 
务 。 除 了 通用 服务 器 软件 外 ,还 有 大 量 的 应 用 是 线程 化 的 。 例 如 : 

(1) 多 线程 的 本 地 应 用 ; 

(2) 多 进程 应 用 ; 

(3) 多 实例 应 用 ; 

(4) Java 应 用 。 

超 线程 (Hyper Threading) 和 SMT 技术 只 能 在 一 定 程度 上 支持 多 线程 或 多 实例 应 用 ， 
本 质 上 还 只 是 在 一 个 执行 核 上 运行 。 当 线程 个 数 较 多 时 ,就 需要 多 核 架构 或 并 行 处 理 机 这 
样 的 处 理 系统 了 。 

总 之 , 受 CPU 主 频 、 功 耗 、 散 热 和 超标 量 等 技术 复杂 度 的 限制 ,以 及 多 线程 应 用 软件 需 
求 的 驱动 , 微 处 理 器 架构 发 展 到 多 核 成 为 一 种 必然 的 趋势 ; 另外 ,多 核 架 构 也 是 摩尔 定律 驱 
动 的 结果 。 在 单 核 架构 下 ,摩尔 定律 已 经 接近 于 失效 ,要 想 继续 成 立 ,多 核 架 构 是 必然 的 选 
择 。 说 到 底 , 出 现 多 核 处 理 器 最 根本 的 原因 是 人 们 对 计算 能 力 永 无 止境 的 追求 。 





11.2.2 多 核 架 构 


顾名思义 ,多核 技术 是 指 在 一 枚 处 理 器 中 集成 两 个 或 多 个 完整 的 计算 内 核 , 从 而 提高 计 
算 能 力 的 技术 。 按 计算 内 核 的 对 等 与 否 ,多 核 架 构 又 可 以 分 为 同 构 多 核 架构 和 异 构 多 核 架 
构 两 种 。 计 算 内 核 相同 , 地 位 对 等 的 称 为 同 构 多 核 ,反之 称 为 异 构 多 核 。 需 要 注意 的 是 ,多 
核 架 构 与 多 处 理 器 不 同 ,多 处 理 器 指 多 个 CPU ,每 个 CPU 可 以 是 单 核 或 多 核 的 。 虽 然 同 时 
使 用 多 个 CPU ,但 是 从 管理 的 角度 来 看 ,它们 的 表现 就 像 一 台 单机 一 样 ,这 在 前 面 的 章节 已 
经 有 所 曾 述 。 


1. 多 核 的 组 织 架 构 


多 核 处 理 器 的 组 织 架构 主要 包括 : 片上 核心 处 理 器 的 个 数 、Cache 的 级 数 、 共 享 Cache 
的 容量 和 内 部 互 连 结构 等 。 图 11. 1 给 出 了 多 核 系 统 的 4 种 典型 的 组 织 结构 。 

如 图 11. 1(a) 所 示 是 早期 多 核 处 理 器 的 一 种 组 织 架构 ,现在 在 嵌入 式 芯 片 中 仍 能 见 到 。 
在 这 种 组 织 方式 中 ,只 有 一 级 片 内 Cache, 每 个 核 带 有 自己 的 专用 L1 Cache, 分 成 指令 
Cache 和 数据 Cache。 

如 图 11.1(b) 所 示 的 是 无 片 内 共享 Cache 的 组 织 结 构 。 在 这 种 结构 里 , 片 内 有 足够 的 
可 用 面积 容纳 多 个 L2 Cache。 

如 图 11. 1(c) 所 示 的 架构 采用 了 和 图 11.1(b) 类 似 的 存储 空间 分 配 , 不 同 的 是 该 处 理 器 
架构 拥有 共享 L2 Cache。Intel 的 Core Duo 处 理 器 就 是 这 种 结构 。 

最 后 , 随 着 片上 CPU 内 核 总 量 的 不 断 增加 ,出 于 性 能 上 的 考虑 ,分 离 出 一 个 独立 的 三 
级 Cache, 如 图 11.1(d) 所 示 ; 每 个 CPU 计算 内 核 除 了 拥有 专用 的 一 、 二 级 Cache 外 ,还 共 
享 L3 Cache。 

从 上 述 几 种 结构 来 看 ,使 用 片 内 Cache 是 一 种 常见 的 技术 和 改善 性 能 的 方法 。 使 用 共 
享 的 片 内 L2 Cache 相对 于 专用 Cache 而 言 有 如 下 几 个 优点 。 

(1) 共享 片 内 L2 Cache 可 以 减少 整个 系统 的 不 命中 概率 。 也 就 是 说 ,如 果 某 个 核 上 的 
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二 ] 人 下] 9 
(c) 共享 L2 Cache 多 核 架 构 (d) 共享 L3 Cache 多 核 架 构 


图 11.1 多 核 系统 的 组 织 架 构 


一 个 线程 访问 主 存 的 某 个 位 置 , 该 位 置 对 应 的 块 会 被 装 入 共享 Cache; 如 果 其 他 核 上 的 线程 
也 访问 同一 内 存 块 , 则 数据 已 经 在 片 内 的 共享 Cache 中 了 ,这 样 就 产生 了 Cache 命中 。 

(2) 多 个 核 所 共享 的 数据 在 共享 Cache 级 上 不 需要 复制 。 

(3) 对 于 合适 的 块 替换 算法 ,分 配给 每 个 核 的 共享 Cache 量 是 动态 的 ,这 样 局 部 线程 能 
使 用 更 多 的 Cache 空间 。 

(4) 通过 共享 Cache 能 很 容易 地 实现 计算 内 核 间 的 通信 。 

(5) 使 用 共享 的 L2 Cache 将 一 致 性 问题 限制 在 LI1 Cache 层次 上 ,而且 还 具有 性 能 上 
的 优点 ,一 方面 不 同 核 上 的 线程 可 以 共享 相同 的 数据 , 另 一 方面 运行 单个 或 少量 高 性 能 线程 
时 ,相应 的 Cache 可 用 空间 将 更 大 。 

使 用 片 内 专用 L2 Cache 的 潜在 优点 是 每 个 核能 快速 地 访问 其 私有 L2 Cache 块 ,非常 
适合 具有 很 强 局 部 性 的 线程 提高 性 能 。 

随 着 可 用 Cache 的 数量 和 计算 内 核 数 的 增加 ,使 用 共享 L3 Cache, 结 合共 享 或 专用 的 
L2 Cache, 其 效果 会 比 简单 地 使 用 多 个 共享 的 L2 Cache 要 好 ,性 能 会 得 到 进一步 的 提升 。 

多 核 系 统 另 一 个 重要 的 组 织 架 构 设 计 问 题 是 : 每 个 计算 内 核 采 用 超标 量 架 构 还 是 
SMT 架构 。SMT 是 一 种 在 一 个 CPU 的 时 钟 周期 内 ,能够 执行 来 自 多 个 线程 指令 的 硬件 多 
线程 技术 。 因 此 ,一 个 4 核 SMT 系统 ,每 个 核 支 持 4 个 并 发 线程 ,在 应 用 级 上 等 价 于 一 个 
16 核 的 系统 。 随 着 软件 并 行 资 源 利 用 能 力 的 提高 , 相 比 于 超标 量 方法 ,SMT 方法 更 具有 吸 
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列 泪 5 
2. 多 核 架 构 实 例 


多 核 CPU 产品 有 很 多 ,几乎 所 有 的 厂商 都 推出 了 自己 的 多 核 产 品 。 本 节 介 绍 几 个 典 
型 的 多 核 架 构 实 例 : Intel x86 多 核 架 构 和 面向 嵌入 式 应 用 的 ARM 多 核 架 构 。 

1) Intel x86 多 核 架构 

从 2005 年 开始 ,Intel 公司 每 两 年 推出 一 款 新 的 微 架 构 ; 工艺 也 从 65nm、45nm、32nm、 
22nm 逐步 向 8nm 发 展 ,性 能 上 仍 遵循 摩尔 定律 。 这 里 介绍 两 款 分 别 代表 中 、 低 端 应 用 的 多 
核 CPU。 

(1) Core Duo 

2006 年 推出 的 Core Duo 是 全 球 第 一 个 低 耗 电 的 双核 处 理 器 ( 低 于 25W), 它 也 是 第 一 
款 苹果 Macintosh 电脑 所 使 用 的 Intel 处 理 器 。Core Duo 实现 了 两 个 x86 超标 量 处 理 器 ， 
共享 二 级 Cache。 跟 所 有 的 多 核 系统 一 样 ,Core Duo 的 每 个 核 有 自己 的 专用 Ll Cache: 一 
个 32KB 的 指令 Cache 和 一 个 32KB 的 数据 Cache。 

Core Duo 的 每 个 核 有 一 个 独立 的 热 控制 部 件 。Core Duo 的 热 控制 部 件 负 责 管理 芯 
的 散热 ,在 发 热 受 限 的 条 件 下 使 得 处 理 器 的 性 能 最 高 。 另 外 ,热管 理 可 以 通过 冷却 系统 改进 
人 机 环境 、 降 低 风扇 噪声 。 每 个 核 可 被 定义 为 一 个 独立 的 热 区 ,每 个 热 区 的 最 高 温度 存 到 专 
用 寄存 器 中 ,由 软件 轮 询 这 些 寄存 器 来 获得 最 高 温度 值 。 如 果 一 个 核 的 温度 超过 某 个 阔 值 ， 
热 控制 部 件 降 低 该 核 的 时 钟 频率 ,从 而 减少 热量 的 产生 。 

Core Duo 组 成 中 的 另 一 个 关键 部 件 是 高 级 可 编程 中 断 控制 器 (Advanced 
Programmable Interrupt Controller, APIC)。APIC 可 以 执行 许多 功能 ,包括 支持 处 理 器 间 
中 断 ,允许 任 一 处 理 器 中 断 另 一 处 理 器 或 一 组 处 理 器 。 一 个 核 执行 的 线程 可 以 产生 一 个 中 
断 请 求 ,该 中 断 请 求 首先 由 本 地 APIC 接受 ,再 传送 给 其 他 核 的 APIC ,然后 中 断 对 应 的 核 。 
功率 管理 逻辑 负责 降低 功 耗 , 从 而 增加 移动 平台 电池 的 寿命 。 在 实际 中 ,功率 管理 逻辑 监测 
热量 状况 和 CPU 活动 ,适当 地 调整 电压 和 功 耗 。 它 包含 一 个 高 级 功率 门 控 部 件 , 可 以 进行 
超 细 粒 度 的 逻辑 控制 , 仅 当 需 要 的 时 候 才 启动 相应 的 CPU 逻辑 子 系统 。 

Core Duo 芯片 包含 一 个 共享 的 .2MB 的 L2 Cache。Cache 逻辑 可 以 根据 当前 核 的 需求 
动态 地 分 配 Cache 空间 ,因此 一 个 核 最 多 的 时 候 可 以 获得 全 部 的 L2 Cache 空间 。L2 Cache 
所 包含 的 逻辑 支持 MESI 协议 ,以 维护 其 上 L1 Cache 之 间 的 数据 一 致 性 。Core Duo 对 
MESI 协 议 进 行 了 扩展 ,也 支持 对 称 多 处 理 器 结构 。 当 一 个 核 请 求 的 数据 不 在 本 地 CPU 内 
时 , 则 通过 外 部 总 线 上 的 代理 访问 其 他 CPU。 总 线 接口 连接 外 部 总 线 , 即 前 端 总 线 。 前 端 
总 线 连接 主 存 .1/O 控制 器 和 其 他 处 理 器 芯片 。 

(2) Intel Core i7 

Intel Core i7 是 Intel 于 2008 年 11 月 推出 的 ,实现 了 4 个 x86 SMT 计算 核 ,每 个 计算 
核 带 一 个 专用 的 L2 Cache、 一 个 共享 的 L3 Cache。 在 Core i7 中 ,每 个 核 拥 有 自己 的 专用 
L2 Cache,4 个 核 共 享 一 个 8MB 的 L3 Cache。 为 了 使 Cache 更 加 高 效 地 工作 ,使 用 了 预 取 
机 制 。 在 这 种 机 制 中 ,硬件 检测 内 存 的 访问 模式 ,推测 马上 要 用 到 的 数据 ,并 提前 装 入 到 
Cache 中 。 

Core i7 芯片 支持 两 种 片 外 通信 方式 : 通过 “DDR3 主 存 控制 器 ”的 通信 和 通过 “高 速 路 
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径 互 连 ” 的 通信 。Core i7 将 DDR3 主 存 控制 器 集成 到 了 片 内 ,去 掉 了 前 端 总 线 。 这 个 接口 
支持 三 个 信道 ,每 个 信道 为 8 字 节 宽 , 总 宽度 为 192 位 ,总 数据 传输 率 可 达 32GB/s。 高 速 路 
径 互 连 (Quick Path Interconnect, QPD 是 一 个 电气 互 连 规范 ,基于 一 致 性 协议 和 点 对 点 链 
路 ,用 于 Intel 处 理 器 和 芯片 组 互 连 。 通 过 其 互 连 的 处 理 器 之 间 能 高 速 通信 ,每 秒 可 进行 
6. 4G 次 传送 。 每 次 传送 16 位 ,达到 12. 8GB/s; 由 于 QPI 链 路 是 双向 的 ,总 带宽 可 达到 
25. 6GB/s。 

2) ARM11 MPCore 架构 

ARM11 MPCore 是 基于 ARM11 处 理 器 系列 的 多 核 产品 ,最 多 可 配置 4 个 处 理 器 ,每 
个 处 理 器 带 有 私有 的 L1 指令 Cache 和 LI1 数据 Cache。 

ARM11 MPCore 处 理 器 如 图 11. 2 所 示 ,系统 的 主要 部 件 如 下 。 
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11.2 ARM11 MPCore 处 理 器 


(1) 中 断 分 配器 : 进行 中 断 检测 和 中 断 优先 级 管理 , 按 需 将 中 断 请 求 传递 给 一 个 或 多 
个 CPU。 提 供 一 种 处 理 器 间 的 通信 方法 ,使 得 一 个 CPU 上 线程 可 以 驱动 另 一 个 CPU 上 的 
线程 ,支持 单 播 .多 播 和 广播 通信 方式 。 


说 明 : IRQ 一 一 中 断 请 求 
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(2) 定时 器 : 每 个 CPU 都 有 自己 的 、 能 产生 中 断 的 私有 计时 器 。 

(3) CPU 接口 : 处 理 中 断 确认 、 中 断 屏蔽 和 中 断 完成 确认 。 

(4) CPU: 单个 的 ARM11 处 理 器 。 每 个 CPU 被 认为 是 MP11 CPU 核 。 
(5) 向 量 浮 点 部 件 (VFP) : 用 硬件 实现 浮 点 运算 的 协 处 理 器 。 

(6) L1 Cache: 每 个 CPU 有 自己 的 专用 L1 数据 Cache 和 Ll 指令 Cache。 
(7) 监视 控制 部 件 : 负责 维护 Ll 数据 Cache 之 间 的 一 致 性 。 


11.2.3 基于 多 核 的 并 行程 序 设 计 


毫 无 疑问 ,多 核 给 我 们 提供 了 更 经 济 的 计算 能 力 。 但 是 ,这 种 能 力 能 否 善 加 利用 ,还 要 
取决 于 软件 。 如 果 不 针对 多 核 进行 软件 开发 ,不 仅 多 核 提供 的 强大 计算 能 力 得 不 到 利用 , 相 
反 还 有 可 能 不 如 单 核 CPU 好 用 。 因 为 采用 多 核 的 CPU 其 每 个 内 核 的 主 频 比 主流 的 单 核 
CPU 通常 要 低 一 些 , 如 果 你 的 程序 只 能 发 挥 出 一 个 内 核 效 用 ,自然 不 如 单 核 CPU 好 用 。 未 
来 多 核 芯 片 将 无 处 不 在 ,针对 多 核 的 软件 开发 将 是 摆 在 软件 产业 界面 前 一 个 大 的 挑战 。 有 
专家 甚至 预言 ,针对 多 核 和 多 线程 的 软件 开发 将 是 未 来 十 年 软件 开发 的 主要 挑战 , 即 基于 多 
核 的 并 行程 序 设计 。 

多 核 处 理 器 的 基本 目的 是 通过 多 个 任务 的 并 行 执行 提高 应 用 程序 的 性 能 。 这 就 需要 将 
一 个 应 用 程序 进行 任务 划分 : 尽量 分 解 为 多 个 相对 独立 的 任务 ,每 个 任务 实现 为 一 个 线程 ， 
从 而 将 多 个 任务 分 布 到 多 个 计算 核 上 执行 ,减少 程序 的 执行 时 间 。 


1. 并 行 编程 模型 


目前 几 种 最 重要 的 并 行 编程 模型 是 数据 并 行 (Data Parallel)、 消 息 传递 (Message 
Passing) 和 共享 变量 (Shared Variable) 。 数 据 并 行 模型 的 编程 级 别 比较 高 ,编程 相对 简单 ， 
但 它 仅 适用 于 数据 并 行 问题 ; 消息 传递 模型 的 编程 级 别 相对 较 低 ,但 消息 传递 编程 模型 可 
以 有 更 广泛 的 应 用 范围 ; 共享 变量 则 采用 多 线程 的 方式 ,非常 适合 SMP 共享 内 存 多 处 理 系 
统 和 多 核 处 理 器 体系 结构 。 

数据 并 行 即将 相同 的 操作 同时 作用 于 不 同 的 数据 ,因此 适合 在 SIMD(Single Instruction 
Multiple Data) 及 SPMD(Single Program, Multiple Data) 的 并 行 计算 机 上 和 运行。 数据 并 行 
编程 模型 是 一 种 较 高 层次 上 的 模型 , 它 提供 给 编程 者 一 个 全 局 的 地 址 空间 ,一 般 这 种 形式 的 
语言 本 身 就 提供 并 行 执行 的 语义 ,因此 对 于 编程 者 来 说 ,只 需要 简单 地 指明 执行 什么 样 的 并 
行 操作 和 并 行 操作 的 对 象 , 就 实现 了 数据 并 行 的 编程 。 数 据 并 行 的 表达 是 相对 简单 和 简洁 
的 , 它 不 需要 编程 者 关心 并 行 机 是 如 何 对 该 操作 进行 并 行 执 行 的 。 数 据 并 行 编程 模型 虽然 
可 以 解决 一 大 类 科学 与 工程 计算 问题 ,但 是 对 于 非 数据 并 行 类 的 问题 ,如 果 通 过 数据 并 行 的 
方式 来 解决 ,一般 难以 取得 较 高 的 效率 。 

消息 传递 即 各 个 并 行 执行 的 部 分 之 间 通 过 传递 消息 来 交换 信息 ,协调 步伐 ,控制 执行 。 
消息 传递 一 般 是 面向 分 布 式 内 存 的 ,但 是 它 也 可 适用 于 共享 内 存 的 并 行 机 。 消 息 传递 为 编 
程 者 提供 了 更 灵活 的 控制 手段 和 表达 并 行 的 方法 .一些 用 数据 并 行 方法 很 难 表达 的 并 行 算 
法 ,都 可 以 用 消息 传递 模型 来 实现 ,灵活 性 和 控制 手段 的 多 样 化 ,是 消息 传递 并 行程 序 能 提 
供 高 的 执行 效率 的 重要 原因 。 消 息 传递 模型 一 方面 为 编程 者 提供 了 灵活 性 ; 另 一 方面 , 它 
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也 将 各 个 并 行 执行 部 分 之 间 复 杂 的 信息 交换 和 协调 、 控 制 的 任务 交 给 了 编程 者 ,这 在 一 定 程 
度 上 增加 了 编程 者 的 负担 ,这 也 是 消息 传递 编程 模型 编程 级 别 低 的 主要 原因 。 虽 然 如 此 , 消 
息 传递 的 基本 通信 模式 是 简单 和 清楚 的 ,学 习 和 掌握 这 些 部 分 并 不 困难 ,因此 目前 大 量 的 并 
行程 序 设计 仍然 是 消息 传递 并 行 编程 模式 。 

共享 变量 则 是 采用 程序 中 的 共享 变量 来 进行 信息 交换 、 协 调 同步 以 及 控制 执行 的 。 共 
享 变量 的 方式 非常 适合 于 多 核 系统 下 的 应 用 编程 ,著名 的 OpenMP 多 线程 并 行 编程 语言 就 
是 采用 的 这 种 方式 。 


2. 并 行 语 言 


并 行程 序 是 通过 并 行 语言 来 表达 的 ,并 行 语言 的 产生 主要 有 以 下 3 种 方式 。 

(1) 设计 全 新 的 并 行 语言 ; 

(2) 扩展 原来 的 串 行 语言 的 语法 成 分 使 它 支持 并 行 特征 ; 

(3) 不 改变 串 行 语言 仅 为 串 行 语言 提供 可 调用 的 并 行 库 。 

设计 一 种 全 新 的 并 行 语言 的 优点 是 可 以 完全 摆脱 串 行 语言 的 束缚 ,从 语言 成 分 上 直接 
支持 并 行 ,这样 就 可 以 使 并 行程 序 的 书写 更 方便 ,更 自然 ,相应 的 并 行程 序 也 更 容易 在 并 行 
机 上 实现 。 但 是 ,由 于 并 行 计算 至 今 还 没有 像 串 行 计算 那样 统一 的 汉 “。 诺 依 曼 模型 可 供 遵 
循 ,因此 并 行 机 、 并 行 模型 .并行 算法 和 并 行 语言 的 设计 和 开发 千差万别 ,没有 一 个 统一 的 标 
准 ,虽然 有 多 种 多 样 全 新 的 并 行 语言 出 现 , 但 至 今 还 没有 任何 一 种 新 出 现 的 并 行 语言 ,成 为 
普遍 接受 的 标准 ,设计 全 新 的 并 行 语言 ,实现 起 来 难度 和 工作 量 都 很 大 ,但 各 种 各 样 并 行 语 
言 的 出 现实 践 和 研究 无 疑 都 为 并 行 语言 和 并 行 计算 的 发 展 做 出 了 贡献 。 

一 种 重要 的 对 串 行 语 言 的 扩充 方式 就 是 标注 ,即将 对 串 行 语 言 的 并 行 扩充 作为 原来 串 
行 语 言 的 注释 ,对 于 这 样 的 并 行程 序 , 若 用 原来 的 串 行 编译 器 来 编译 ,标注 的 并 行 扩充 部 分 
将 不 起 作用 , 仍 将 该 程序 作为 一 般 的 串 行程 序 处 理 , 若 使 用 扩充 后 的 并 行 编译 器 来 编译 , 则 
该 并 行 编译 器 就 会 根据 标注 的 要 求 , 将 原来 串 行 执行 的 部 分 转化 为 并 行 执行 。 对 串 行 语 言 
的 并 行 扩充 ,相对 于 设计 全 新 的 并 行 语言 ,显然 难度 有 所 降低 ,但 需要 重新 开发 编译 器 ,使 它 
能 够 支持 扩充 的 并 行 部 分 。 一 般 地 ,这 种 新 的 编译 器 往往 和 和 运行 时 支持 的 并 行 库 相 结合 。 
仅 提供 并 行 库 , 是 一 种 对 原来 的 串 行程 序 设计 改动 最 小 的 并 行 化 方法 。 这 样 ,原来 的 串 行 编 
译 器 也 能 够 使 用 ,不 需要 任何 修改 ,编程 者 只 需要 在 原来 的 串 行程 序 中 加 入 对 并 行 库 的 调 
用 ,就 可 以 实现 并 行程 序 设 计 。 对 于 这 三 种 并 行 语 言 的 实现 方法 目前 最 常 使 用 的 是 第 二 种 
和 第 三 种 方法 ,特别 是 第 三 种 方法 。 


3. 并 行 算法 


并 行 算法 是 给 定 并 行 模型 的 一 种 具体 明确 的 解决 方法 和 步骤 。 按 照 不 同 的 划分 方法 ， 
并 行 算法 有 多 种 不 同 的 分 类 。 

根据 运算 的 基本 对 象 的 不 同 ,可 以 将 并 行 算法 分 为 数值 并 行 算法 (数值 计算 ) 和 非 数 值 
并 行 算 法 (符号 计算 )。 当 然 , 这 两 种 算法 也 不 是 截然 分 开 的 。 划 分 为 什么 类 型 的 算法 主要 
取决 于 主要 的 计算 量 和 宏观 的 计算 方法 。 

根据 进程 之 间 的 依赖 关系 可 以 分 为 同步 并 行 算法 (步调 一 致 )、 异 步 并 行 算法 (步调 、 进 
展 互 不 相同 ) 和 纯 并 行 算法 (各 部 分 之 间 没 有 关系 )。 对 于 同步 并 行 算法 ,任务 的 各 个 部 分 是 
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同步 向 前 推进 的 ,有 一 个 全 局 的 时 钟 (不 一 定 是 物理 的 ) 来 控制 各 部 分 的 步伐 ; 而 对 于 异步 
并 行 算法 ,各 部 分 的 步伐 是 互 不 相同 的 ,它们 根据 计算 过 程 的 不 同 阶段 决定 等 待 . 继 续 或 终 
止 ; 纯 并 行 算法 是 最 理想 的 情况 ,各 部 分 之 间 可 以 尽 可 能 快 地 向 前 推进 ,不 需要 任何 同步 或 
等 待 ,但 是 一 般 这 样 的 问题 是 少见 的 。 

根据 并 行 计算 任务 的 大 小 ,还 可 以 分 为 粗 粒度 并 行 算法 (一 个 并 行 任务 包含 较 长 的 程序 
段 和 较 大 的 计算 量 ) 、 细 粒度 并 行 算法 (一 个 并 行 任务 包含 较 短 的 程序 段 和 较 小 的 计算 量 ) 以 
及 介 于 二 者 之 间 的 中 粒度 并 行 算法 。 一 般 而 言 ,并 行 的 粒度 越 小 ,就 有 可 能 开发 更 多 的 并 行 
性 ,提高 并 行 度 , 这 是 有 利 的 方面 ,但 是 另 一 个 不 利 的 方面 就 是 并 行 的 粒度 越 小 ,通信 次 数 和 
通信 和 量 就 相对 增多 ,这 样 就 增加 了 额外 的 开销 ,因此 合适 的 并 行 粒 度 需 要 根据 计算 量 、 通 信 
量 、 计 算 速 度 、 通 信 速 度 进行 综合 平衡 ,这 样 才能 够 取得 高 效率 。 

对 于 相同 的 并 行 计算 模型 ,可 以 有 多 种 不 同 的 并 行 算法 来 描述 和 刻画 。 由 于 并 行 算法 
设计 的 不 同 ,可 能 对 程序 的 执行 效率 有 很 大 的 影响 ,不 同 的 算法 可 以 有 几 倍 、 几 十 倍 甚至 上 
百倍 的 性 能 差异 是 完全 正常 的 。 并 行 算 法 基本 上 是 随 着 并 行 机 的 发 展 而 发 展 的 。 从 本 质 上 
说 ,不 同 的 并 行 算法 是 根据 问题 类 别 的 不 同和 并 行 机 体系 结构 的 特点 产生 出 来 的 ,一 个 好 的 
并 行 算法 要 既 能 很 好 地 匹配 并 行 计算 机 硬件 体系 结构 的 特点 ,又 能 反映 问题 内 在 并 行 性 。 
SIMD 结构 计算 机 一 般 适 合同 步 并 行 算法 ,而 MIMD 并 行 计算 机 则 适合 异步 并 行 算法 。 

在 并 行 计算 中 ,由 于 并 行 算法 可 以 对 性 能 产生 重大 的 影响 ,因此 受到 广泛 的 重视 ,并 行 
算法 也 成 为 一 个 专门 的 十 分 活跃 的 研究 领域 。 因 此 在 并 行程 序 设计 之 前 ,必须 首先 考虑 好 
并 行 算 法 。 该 算法 要 能 够 将 并 行 机 和 实际 的 问题 很 好 地 结合 起 来 , 既 能 够 充分 利用 并 行 机 
体系 结构 的 特点 ,又 能 够 揭示 问题 内 在 的 并 行 性 。 


11.2.4 多 核 编 程 实 例 


目前 ,程序 开发 人 员 开 发 实际 的 并 行程 序 主要 方法 是 串 行 语言 加 并 行 库 的 扩展 ,也 就 是 
增加 一 个 库 来 帮助 进行 消息 传递 和 并 行 ,但 其 程序 开发 效率 很 低 ,难度 也 比较 大 。 其 中 比较 
典型 的 方法 有 两 种 : 共享 存储 和 消息 传递 。 共 享 存储 的 方法 主要 是 采用 多 线程 的 方式 ,其 
主要 程序 开发 环境 就 是 已 经 成 为 事实 工业 标准 的 OpenMP, 目 前 主要 是 商业 编译 器 提供 对 
该 语言 的 支持 。 而 消息 传递 开发 则 包括 MPI 和 PVM 等 开源 开发 环境 ,可 以 免费 下 载 。 其 
中 ,MPI 最 常用 最 流行 的 两 个 实现 是 MPICH 和 LAM/MPI。 此 外 ,由 于 现 有 机 器 体系 结构 
层次 非常 复杂 ,还 可 以 把 上 面 几 类 并 行 和 向 量 并 行 混合 使 用 ,充分 挖掘 机 器 的 性 能 潜力 。 通 
常 称 之 为 混合 并 行 。 

OpenMP(Open Multi-Processing) 是 一 套 支 持 跨 平台 共享 内 存 方式 的 多 线程 并 发 的 编 
程 API, 使 用 C,C++ 和 FORTRAN 语言 ,可 以 在 大 多 数 的 处 理 器 体系 和 操作 系统 中 运行 , 包 
括 Solaris, AIX, HP-UX,GNU/Linux, Mac OS X 和 Microsoft Windows 等 ; 还 包括 一 套 
编译 器 指令 、 库 和 一 些 能 够 影响 运行 行为 的 环境 变量 。OpenMP 采用 可 移植 的 .可 扩展 的 
模型 ,为 程序 员 提 供 了 一 个 简单 而 灵活 的 开发 平台 ,包括 从 标准 桌面 PC 到 超级 计算 机 的 并 
行 应 用 程序 接口 。OpenMP 提供 了 对 并 行 算法 的 高 层 的 抽象 描述 ,程序 员 通 过 在 源 代码 中 
加 入 专用 的 pragma 来 指明 自己 的 意图 ,由 此 编译 器 可 以 自动 将 程序 进行 并 行 化 ,并 在 必要 
之 处 加 入 同步 互 斥 以 及 通信 。 
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习 题 
1. 概念 题 
【是 11.1】 解释 下 列 名 词 
CMP SMT MPI OpenMP 


2. 问答 题 


【 题 11.2】 并 行 编程 模型 有 哪 几 种 ? 各 自 的 特点 是 什么 ? 
【 题 11.3】 简 述 多 核 架 构 与 多 处 理 器 有 什么 不 同 。 

【 题 11.4】 多 核 时 代 的 主要 驱动 力主 要 有 哪些 ? 

【 题 11.5】 夯 出 专用 LI1 Cache 多 核 架 构图 ,并 叙述 其 特点 。 
【 题 11.6】 夯 出 专用 L2 Cache 多 核 架 构图 ,并 叙述 其 特点 。 
【 题 11.7】 夯 出 共享 L2 Cache 多 核 架 构图 ,并 叙述 其 特点 。 
【 题 11.8】〗 夯 出 共享 L3 Cache 多 核 架 构图 ,并 叙述 其 特点 。 


题 解 


1. 概念 题 


【 题 11.1】 解释 下 列 名 词 

CMP 一 一 多 核 处 理 器 又 称 芯片 多 处 理 器 (Chip Multiprocessor,CMP) ,是 指 在 单个 芯 
片 内 集成 两 个 或 多 个 处 理 器 。 

SMT 一 一 超标 量 技术 以 及 同时 多 线程 (Simultaneous Multithreading,SMT) 。 

MP 一 一 消息 传递 并 行程 序 设 计 (Message Passing Interface.MPI) 。 

OpenMP 一 一 多 线程 并 行 编程 语言 (Open Multi-Processing,OpenMP) 。 


2. 问答 题 


【 题 11.2】 答 : 目前 有 3 种 并 行 编程 模型 : 数据 并 行 (Data Parallel) 模 型 \ 消 息 传递 
(Message Passing) 模 型 和 共享 变量 (Shared Variable) 模 型 。 数 据 并 行 模 型 的 编程 级 别 比较 
高 ,编程 相对 简单 ,但 它 仅 适用 于 数据 并 行 问题 ; 消息 传递 模型 的 编程 级 别 相对 较 低 ,但 消 
息 传递 编程 模型 可 以 有 更 广泛 的 应 用 范围 ; 共享 变量 则 采用 多 线程 的 方式 ,非常 适合 SMP 
共享 内 存 多 处 理 系 统 和 多 核 处 理 器 体系 结构 。 

【 题 11. 3】 答 : 多 核 是 指 在 一 片 处 理 器 芯片 中 集成 多 个 完整 的 计算 内 核 。 

而 多 处 理 器 则 是 指 多 个 CPU, 每 个 CPU 可 以 是 单 核 或 多 核 的 。 虽 然 同时 使 用 多 个 
CPU ,但 是 从 管理 的 角度 来 看 ,它们 的 表现 就 像 一 台 单机 一 样 。 

【 题 11.4】 答 : 主要 有 功 耗 与 散热 .并 行 度 和 应 用 软件 等 。 受 CPU 主 频 、 功 耗 、 散 热 和 
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超标 量 等 技术 复杂 度 的 限制 ,以 及 多 线程 应 用 软件 需求 的 驱动 , 微 处 理 器 架构 发 展 到 多 核 成 
为 一 种 必然 ; 另外 ,多 核 架 构 也 是 摩尔 定律 驱动 的 结果 。 在 单 核 架 构 下 ,摩尔 定律 已 经 接近 
于 失效 了 ,要 继续 成 立 ,多 核 也 是 必然 的 选择 。 

【 题 11.5】 答 : 专用 Ll Cache 多 核 架构 图 如 图 11. 3 所 示 。 
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11.3 专用 L1 Cache 多 核 架构 图 


特点 : (1) 每 个 CPU 核 都 有 专用 的 L1 指令 Cache 和 L1 数据 Cache, 访 问 带宽 比 共享 
L1 Cache 提高 一 倍 。 

(2) 片 内 无 L2 Cache。 

(3) 共享 片 外 L2 Cache, 不 存在 L2 Cache 一 致 性 的 问题 。 

【 题 11.6】 答 : 专用 L2 Cache 多 核 架构 图 如 图 11.4 所 示 。 
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图 11.4 专用 L2 Cache 多 核 架 构图 





特点 : (1) 每 个 CPU 核 都 有 专用 的 L1 指令 Cache 和 L1 数据 Cache, 访 问 带宽 比 共享 
Ll Cache 提高 一 倍 。 

(2) 每 个 CPU 核 都 有 一 个 片 内 L2 Cache, 增 加 了 每 个 核 的 Cache 容量 ,但 也 带 来 了 实 
现 多 L2 Cache 一 致 性 的 问题 。 

【 题 11.7】 答 : 共享 L2 Cache 多 核 架 构图 如 图 11.5 所 示 。 

特点 : (1) 每 个 CPU 核 都 有 专用 的 L1 指令 Cache 和 L1 数据 Cache, 访 问 带 宽 比 共享 
L1 Cache 提高 一 倍 。 

(2) 所 有 CPU 核 共享 一 个 片 内 L2 Cache, 不 存在 L2 Cache 一 致 性 的 问题 。 
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11.5 共享 L2 Cache 多 核 架 构图 
【 题 11.8】 答 : 共享 L3 Cache 多 核 架构 图 如 图 11.6 所 示 。 
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11.6 共享 L3 Cache 多 核 架 构图 


特点 : (1) 每 个 CPU 核 都 有 专用 的 L1 指令 Cache 和 L1 数据 Cache, 访 问 带宽 比 共 享 
L1 Cache 提高 一 倍 。 

(2) 每 个 CPU 核 都 有 一 个 片 内 L2 Cache, 增 加 了 每 个 核 的 Cache 容量 ,但 也 带 来 了 实 
现 多 L2 Cache 一 致 性 的 问题 。 

(3) 所 有 CPU 核 共享 一 个 片 内 L3 Cache, 进 一 步 增加 了 Cache 的 容量 ,而 且 也 不 存在 
L2 Cache 一 致 性 的 问题 。 


第 12 章 机 群 系统 


12.1 基本 要 求 与 难点 


12.1.1 基本 要 求 


(1) 掌握 有 关机 群 系统 的 基本 概念 。 

(2) 掌握 机 群 的 基本 结构 ,包括 硬件 组 成 和 软件 组 成 。 

(3) 掌握 机 群 的 特点 和 分 类 。 

(4) 了 解 典型 的 机 群 系统 ,包括 : Berkeley NOW ,Beowulf,LAMP.,IBM SP2 。 


;1.2 难忘 


机 群 的 特点 和 分 类 。 


12.2 知识 要 点 


机 群 (Cluster) 系 统 起 源 于 20 世纪 90 年 代 中 期 , 它 是 由 多 台 同 构 或 异 构 的 独立 计算 机 
通过 高 性 能 网 络 连 接 在 一 起 而 构成 的 高 性 能 并 行 计算 机 系统 。 构 成 机 群 的 计算 机 都 拥有 自 
己 的 存储 器 、1/O 设备 和 操作 系统 ,它们 在 机 群 操作 系统 的 控制 下 协同 完成 特定 的 并 行 计算 
任务 。 对 用 户 和 应 用 来 说 ,机 群 就 是 一 个 单一 的 系统 ,可 以 提供 低 价 高 效 的 高 性 能 环境 和 快 
速 可 靠 的 服务 。 

目前 流行 的 高 性 能 并 行 计算 机 系统 结构 通常 可 以 分 成 5 类 : 并行 向 量 处 理 机 (PVP)、 
对 称 多 处 理 机 (SMP) ,大 规模 并 行 处 理 机 (MPP)、 分 布 共享 存储 CDSM) 多 处 理 机 和 机 群 。 
机 群 结构 凭借 低廉 的 价格 、 极 强 的 灵活 性 和 可 扩 放 性 ,成 为 近年 来 发 展 势头 最 为 强劲 的 一 种 
结构 。 

尽管 直到 1997 年 6 月 全 球 高 性 能 计算 机 500 强 (Top500) 才 首次 有 机 群 结构 的 计算 机 
进入 该 排名 ,但 此 后 入选 的 机 群 系统 的 数量 逐年 稳步 增加 一 一 2003 年 11 月 ,这 一 数字 已 达 
到 208 台 , 机 群 首次 成 为 Top500 排名 中 比例 最 高 的 结构 ; 截至 2008 年 6 月 ,已 经 连续 10 
期 位 居 榜 首 。 机 群 已 成 为 当今 构建 高 性 能 计算 机 系统 时 最 常 被 采用 的 结构 。 
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12.2.1 机 群 的 基本 结构 


1. 机 群 的 硬件 组 成 


机 群 是 一 种 价格 低廉 .易于 构建 .可 扩 放 性 极 强 的 并 行 计算 机 系统 , 它 由 多 台 同 构 或 异 
构 的 独立 计算 机 通过 高 性 能 网 络 或 局 域 网 互 连 在 一 起 ,协同 完成 特定 的 并 行 计算 任务 。 从 
用 户 的 角度 来 看 ,机 群 就 是 一 个 单一 、 集 中 的 计算 资源 。 

构成 机 群 的 每 台独 立 计算 机 都 是 机 群 的 一 个 结 点 。 每 个 结 点 都 是 一 个 完整 的 计算 机 系 
统 , 拥 有 本 地 磁盘 和 操作 系统 ,可 以 作为 一 个 单独 的 计算 资源 供用 户 使 用 。 除 了 PC 外 ,机 
群 的 结 点 还 可 以 是 工作 站 ,甚至 是 规模 较 大 的 对 称 多 处 理 机 。 

按照 机 群 系统 中 各 结 点 的 功能 不 同 , 可 以 将 它们 分 为 3 类 , 即 : 计算 结 点 ,用 于 完成 
计算 任务 。@ 管 理 / 登 录 结 点 ,它们 是 外 部 设备 和 机 群 系统 之 间 连 接 的 桥梁 ,任何 用 户 和 系 
统 的 管理 员 都 只 能 通过 此 类 结 点 才能 登录 到 系统 中 。 此 外 ,管理 /登录 结 点 还 应 具有 管理 和 
作业 提交 等 功能 。@1/O 结 点 ,作为 NFS 文件 系统 的 主 结 点 ,1/O 结 点 一 般 由 存储 设备 、 网 
络 文件 系统 (NFS) 等 组 成 ,外 挂 磁盘 阵列 或 者 连接 其 他 存储 设备 ,负责 文件 的 1/O 操作 ,其 
他 结 点 访问 存储 设备 的 请 求 都 要 通过 1/O 结 点 完成 。 

这 三 类 结 点 所 需 的 具体 硬件 配置 也 不 相同 。 计 算 结 点 需要 提供 很 强 的 计算 能 力 ,对 于 
某 些 应 用 而 言 特别 需要 强大 的 浮 点 计算 能 力 。 此 外 ,计算 结 点 还 应 提供 适量 的 内 存 , 使 运算 
时 数据 能 完全 驻 留 在 物理 内 存 中 ,并 能 够 支持 高 速 、 低 延迟 的 通信 网络 。 而 系统 对 管理 / 登 
录 结 点 要 求 不 高 ,只 要 采用 相对 经 济 的 配置 就 可 以 了 。 

机 群 的 各 个 结 点 一 般 通 过 商品 化 网 络 连接 在 一 起 ,如 以 太 网 .Myrinet Infiniband、 
Quadrics 等 ,部 分 商用 机 群 也 采用 专用 网 络 连 接 , 如 SP Switch\NUMAAlink Crossbar、 
Cray Interconnect 等 。 网 络 接口 与 结 点 的 I/O 总 线 以 松 耦 合 的 方式 相连 。 

无 论 是 计算 机 还 是 互连网 络 ,可 供 设计 者 选择 的 产品 都 非常 多 ,而且 不 同 厂家 的 产品 在 
功能 .性 能 以 及 价格 上 也 都 有 所 差别 ,如 何 选择 合适 的 产品 ,主要 取决 于 具体 的 用 户 对 机 群 
的 具体 要 求 。 


2. 机 群 的 软件 


软件 也 是 机 群 系统 的 重要 组 成 部 分 。 由 于 机 群 系统 结构 松散 、 结 点 独立 性 强 、 网 络 连 接 
复杂 ,造成 机 群 系统 管理 不 便 、 难 以 使 用 。 为 了 解决 这 一 问题 ,国际 上 流行 的 方式 是 在 各 结 
点 的 操作 系统 之 上 青 建 立 一 层 操作 系统 来 管理 整个 机 群 ,这 就 是 机 群 操作 系统 。 

除了 提供 硬件 管理 资源 共享 以 及 网 络 通信 等 功能 外 ,机 群 操作 系统 还 必须 完成 的 另外 
一 项 重要 功能 是 实现 单一 系统 映像 (Single System Image,.SSI) ,这 是 机 群 的 一 个 重要 特征 。 
正 是 通过 SSI 才 使 得 机 群 在 使 用 、 控 制 、 管 理 和 维护 上 更 像 一 个 单独 的 计算 资源 。 

SSI 共 有 四 重 含义 。 首 先是 “单一 系统 ”, 尽 管 系统 中 有 多 个 处 理 器 ,用 户 仍然 把 整个 机 
群 视 为 一 个 单一 的 计算 系统 来 使 用 。 其 次 是 “单一 控制 ”, 在 逻辑 上 ,最 终 用 户 或 系统 用 户 使 
用 的 服务 都 来 自 机 群 中 唯一 的 一 个 位 置 。 例 如 ,用 户 将 批 处 理 作业 提交 到 一 个 唯一 的 作业 
集中 ,而 系统 管理 员 则 通过 一 个 唯一 的 控制 点 对 整个 机 群 的 所 有 软 、 硬 件 进行 管理 和 配置 。 
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三 是 “对 称 性 ”, 用 户 可 以 从 机 群 的 任何 一 个 结 点 上 获得 服务 ,也 就 是 说 ,对 于 所 有 结 点 和 所 
有 用 户 , 除 了 那些 具有 特定 访问 权限 的 服务 与 功能 外 ,所 有 其 他 服务 与 功能 都 是 对 称 的 ,可 
以 通过 任何 一 个 结 点 提供 给 用 户 。 最 后 则 是 “位 置 透明 ”, 用 户 不 必 了 解 真正 执行 服务 的 物 
理 设备 的 具体 位 置 。 

一 般 来 说 ,机 群 系统 中 的 SSI 至 少 应 该 提供 以 下 3 种 服务 。 

(1) 单一 登录 (Single Sign On) , 即 用 户 可 以 通过 机 群 中 的 任何 一 个 结 点 登录 ,而 且 在 
整个 作业 执行 过 程 中 只 需 登 录 一 次 ,不 必 因 作业 被 分 派 到 其 他 结 点 上 执行 而 重新 登录 。 

(2) 单一 文件 系统 (Single File System) ,这 有 两 方面 含义 。 首 先 ,在 机 群 系统 中 ,有 一 
些 对 整个 机 群 所 有 结 点 都 相同 的 软件 ,没有 必要 在 每 一 个 结 点 上 重复 安装 。 其 次 ,尽管 执行 
并 行 作业 时 要 求 每 个 结 点 都 可 以 访问 到 这 些 软件 ,但 它们 在 整个 机 群 系统 中 应 该 具有 一 个 
备份 。 

(3) 单一 作业 管理 系统 (Single Job Management System) 。 用 户 可 以 透明 地 从 任 一 结 
点 提交 作业 ,作业 可 以 以 批 处 理 、 交 互 或 并 行 的 方式 被 调度 执行 。PBS、LSF、Condor 和 
JOSS 都 是 目前 比较 具有 代表 性 的 作业 管理 系统 。 

此 外 ,并 行 编程 模型 以 及 相关 的 并 行 编程 环境 也 是 机 群 系统 中 不 可 缺少 的 软件 。 目 前 
比较 流行 的 并 行 编程 工具 包括 MPI、PVM、OpenMP、HPF 等 。MPI(Message Passing 
Interface) 是 目前 最 重要 的 一 个 基于 消息 传递 的 并 行 编程 工具 , 它 具 有 可 移植 性 好 、 功 能 强 
大 效率 高 等 许多 优点 ,而 且 有 许多 不 同 的 免费 ,高效 .实用 的 实现 版 本 ,几乎 所 有 的 并 行 计 
算 机 厂商 都 提供 对 它 的 支持 ,使 它 成 为 并 行 编程 的 事实 标准 。PVM (Parallel Virtual 
Machine) 也 是 一 种 常用 的 基于 消息 传递 的 并 行 编程 环境 , 它 把 工作 站 网 络 构建 成 一 个 虚拟 
的 并 行 机 系统 ,为 并 行 应 用 程序 提供 了 运行 平台 。HPF(High Performance FORTRAN) 是 
一 个 支持 数据 并 行 的 并 行 语言 标准 。OpenMP(Open Multi-Processing) 是 一 个 共享 存储 并 
行 系统 上 的 应 用 编程 接口 , 它 规范 了 一 系列 的 编译 制导 、 运 行 库 例 程 和 环境 变量 ,并 为 
C/C++ 和 FORTRAN 等 高 级 语言 提供 了 应 用 编程 接口 ,已 经 应 用 于 UNIX、Windows 等 多 
种 平台 。 

图 12.1 列 出 了 机 群 系统 的 软件 框架 。 机 群 操作 系统 、SSI 以 及 其 他 一 些 机 群 正常 工作 
所 必需 的 软件 一 同 构 成 了 机 群 中 间 件 。 在 它 之 上 是 并 行 编程 环境 ,用 户 可 以 通过 并 行 编程 
环境 完成 并 行 应 用 程序 的 开发 。 当 然 , 串 行 应 用 也 可 以 通过 机 群 中 间 件 被 调度 到 某 个 结 点 
上 执行 。 























= = = 
并 行 应 用 
品行 应 用 l 口 。 并行 编程 环境 司 
Hd 机 群 中 则 件 1 
(单一 影像 系统 和 可 用 性 基础 ) 
































PC 工作 环境 | PC 工作 环境 | PC 工作 环境 | | PC 工作 环境 
| | el! i 
普通 软件 普通 软件 [ 普通 软件 普通 软件 
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12.2.2 机 群 的 特点 


与 MPP、PVP、SMP、DSM 等 传统 并 行 计算 机 系统 相 比 ,机 群 系统 具有 许多 优点 。 

(1) 系统 开发 周期 短 。 由 于 机 群 系统 大 多 采用 商品 化 的 PC、 工 作 站 作为 结 点 ,并 通过 
商用 网 络 连接 在 一 起 ,系统 开发 的 重点 在 于 通信 子 系统 和 并 行 编程 环境 上 ,这 大 大 节省 了 研 
制 时 间 。 

(2) 可 靠 性 高 。 机 群 中 的 每 个 结 点 都 是 独立 的 PC 或 工作 站 , 某 个 结 点 的 失效 并 不 会 影 
响 其 他 结 点 的 正常 工作 ,而 且 它 的 任务 还 可 以 迁移 到 其 他 结 点 上 继续 完成 ,从 而 有 效 地 避免 
由 于 单 结 点 失效 引起 的 系统 可 靠 性 问题 。 

(3) 可 扩 放 性 强 。 机 群 的 计算 能 力 随 着 结 点 数量 的 增加 而 增 大 。 这 一 方面 得 益 于 机 群 
结构 的 灵活 性 ,由 于 结 点 间 以 松 耦 合 方式 连接 ,机 群 的 结 点 数量 可 以 增加 到 成 百 上 千 ; 另 一 
方面 则 是 由 于 机 群 系统 的 硬件 容易 扩充 和 替换 ,可 以 灵活 配置 。 

(4) 性 能 价格 比 高 。 由 于 生产 批量 小 ,传统 并 行 计算 机 系统 的 价格 均 比较 昂贵 ,往往 要 
几 百 万 到 上 千 万 美元 。 而 机 群 的 结 点 和 网 络 都 是 商品 化 的 计算 机 产品 ,能 够 大 批量 生产 ,成 
本 相对 较 低 ,因而 机 群 系统 的 性 能 价格 比 更 好 。 与 相同 性 能 的 传统 并 行 计算 机 系统 相 比 ,机 
群 的 价格 要 低 1 一 2 个 数量 级 。 

(5) 用 户 编程 方便 。 机 群 系统 中 ,程序 的 并 行 化 只 是 在 原 有 的 C、C++ 或 FORTRAN 串 
行程 序 中 插入 相应 的 通信 和 原 语 ,对 原 有 串 行 程序 的 改动 有 限 。 用 户 仍 然 使 用 熟悉 的 编程 环 
境 , 无 须 适应 新 的 环境 。 

但 是 机 群 也 有 不 足 之 处 。 由 于 机 群 由 多 台 完 整 的 计算 机 组 成 , 它 的 维护 相当 于 要 同时 
去 管理 多 个 计算 机 系统 ,因此 维护 工作 量 较 大 ,维护 费用 也 较 高 。SMP 则 相对 较 好 ,因为 管 
理 员 只 要 维护 一 个 计算 机 系统 即 可 。 正 因为 如 此 ,现在 很 多 机 群 采用 SMP 作为 结 点 ,这 样 
可 以 减少 结 点 数量 ,达到 减少 维护 工作 量 和 开支 的 目的 。 


12.2.3 机 群 的 分 类 


按照 不 同 的 标准 ,机 群 的 分 类 方法 有 很 多 。 例 如 ,根据 组 成 机 群 的 各 个 结 点 和 网 络 是 否 
相同 ,机 群 可 以 分 为 同 构 与 异 构 两 类 ; 根据 结 点 是 PC 还 是 工作 站 ,机群 可 以 进一步 分 为 PC 
机 群 与 工作 站 机 群 。 不 过 最 常用 的 分 类 方法 还 是 以 机 群 系统 的 使 用 目的 为 依据 ,将 其 分 为 
高 可 用 性 机 群 负 载 均衡 机 群 以 及 高 性 能 机 群 三 类 。 

(1) 高 可 用 性 机 群 。 这 类 机 群 的 主要 目的 是 在 系统 中 某 些 结 点 出 现 故 障 的 情况 下 , 仍 
能 继续 对 外 提供 服务 。 它 采用 宛 余 机 制 , 当 系统 中 某 个 结 点 由 于 软 、 硬 件 故障 而 失效 时 ,该 
结 点 上 的 任务 将 在 最 短 的 时 间 内 被 迁移 到 机 群 内 另 一 个 具有 相同 功能 与 结构 的 结 点 上 继续 
执行 。 这 样 ,对 于 用 户 而 言 ,系统 可 以 一 直 为 其 提供 服务 。 这 类 机 群 适用 于 Web 服务 器 、 医 
学 监测 仪 .银行 POS 系统 等 要 求 持续 提供 服务 的 应 用 。 

(2) 负载 均衡 机 群 。 这 类 机 群 的 主要 目的 是 提供 与 结 点 个 数 成 正比 的 负载 能 力 , 这 就 
要 求 机 群 能 够 根据 系统 中 各 个 结 点 的 负载 情况 实时 地 进行 任务 分 配 。 为 此 , 它 专门 设置 了 
一 个 重要 的 监控 结 点 ,负责 监控 其 余 每 个 工作 结 点 的 负载 和 状态 ,并 根据 监控 结果 将 任务 分 
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派 到 不 同 的 结 点 上 。 这 种 机 群 很 适合 大 规模 网 络 应 用 (如 Web 服务 器 或 FTP 服务 器 ) 大 
工作 量 的 串 行 或 批 处 理 作业 (如 数据 分 析 )。 

负载 均衡 机 群 往往 也 具有 一 定 的 高 可 用 性 特点 ,但 二 者 的 工作 原理 不 同 , 因 而 适用 于 不 
同类 型 的 服务 。 通 常 , 负 载 均衡 机 群 适用 于 提供 静态 数据 的 服务 ,如 HTTP 服务 ;而 高 可 
用 性 机 群 既 适 用 于 提供 静态 数据 的 服务 ,又 适用 于 提供 动态 数据 的 服务 ,如 数据 库 等 。 之 所 
以 高 可 用 性 集群 能 适用 于 提供 动态 数据 的 服务 ,是 由 于 它 的 结 点 共享 同一 存储 介质 。 也 就 
是 说 ,在 高 可 用 性 机 群 内 ,每 种 服务 的 用 户 数据 只 有 一 份 ,存放 专门 的 存储 结 点 上 ,在 任 一 时 
刻 只 有 一 个 结 点 能 读 写 这 份 数 据 。 

(3) 高 性 能 计算 机 群 。 这 类 机 群 的 主要 目的 是 降低 高 性 能 计算 的 成 本 。 它 通过 高 速 的 
商用 互连网 络 , 将 数 十 个 乃至 上 千 台 PC 或 工作 站 连接 在 一 起 ,可 以 提供 接近 甚至 超过 传统 
并 行 计算 机 系统 的 计算 能 力 , 但 其 价格 却 仅 是 具有 相同 计算 能 力 的 传统 并 行 计算 机 系统 的 
几 十 分 之 一 。 这 样 ,通过 利用 若干 台 PC 就 可 以 完成 通常 只 有 超级 计算 机 才能 完成 的 计算 
任务 。 这 类 机 群 适用 于 计算 量 巨 大 的 并 行 应 用 ,如 石油 矿藏 定位 、 气 象 变化 模拟 、 基 因 序列 
分 析 等 。 当 然 ,为 了 稳定 地 提供 高 性 能 计算 服务 , 它 也 必须 满足 一 定 的 可 用 性 要 求 。 

还 有 一 种 比较 常用 的 分 类 方法 是 按照 构建 方式 将 机 群 分 为 专用 机 群 和 企业 机 了 群 两 类 。 
专用 机 群 是 为 代 蔡 传统 的 大 中 型 计算 机 或 巨型 计算 机 而 设计 的 ,装置 比较 紧 次 ,一般 都 装 在 
比较 小 的 机 架 内 , 放 在 机 房 中 使 用 ,因此 它 的 吞吐 率 较 高 ,响应 时 间 也 较 短 。 专 用 机 群 的 结 
点 往往 是 同 构 的 ,一 般 采用 集中 控制 ,由 一 个 (或 一 组 ) 管 理 员 统一 管理 ,而 且 用 户 一 般 需 要 
通过 一 台 终端 机 来 访问 它 , 这 样 做 的 好 处 是 其 内 部 对 外 界 完全 屏蔽 。 而 企业 机 群 则 正好 相 
反 , 它 是 为 了 充分 利用 各 个 结 点 的 空闲 资源 而 设计 的 ,因此 其 各 个 结 点 分 散 安放 ,并 不 需要 
安装 在 同一 个 房间 ,甚至 不 需要 安排 在 同一 幢 楼 中 。 各 结 点 一 般 通 过 标准 的 LAN 或 WAN 
互 连 ,通信 开销 较 大 、 延 迟 较 长 。 企 业 机 群 的 各 个 结 点 一 般 是 异 构 的 ,并 由 不 同 的 个 人 拥有 ， 
这 样机 群 管理 者 只 能 对 各 个 结 点 进行 有 限 的 管理 , 结 点 拥有 者 可 以 随意 地 进行 关机 、 重 新 配 
置 或 者 升级 ,而 且 对 一 个 结 点 而 言 , 它 的 拥有 者 的 任务 应 该 具有 最 高 优先 级 ,高 于 企业 的 其 
他 用 户 。 显 然 ,企业 机 群 的 内 部 通信 是 对 外 暴露 的 ,存在 一 定 的 安全 隐患 ,需要 在 通信 子 系 
统 中 采用 专门 措施 来 避免 。 


习 题 
1. 概念 题 
【 题 12.1】 解释 下 列 名 词 
机 群 单一 系统 映像 高 可 用 性 机 群 
负载 均衡 机 群 高 性 能 机 群 Beowulf 机 群 
2. 问答 题 


【是 12.2】 机 群 系统 有 哪些 特点 ? 
【 题 12. 3】 说 明 IBM SP2 机 群 在 体系 结构 上 的 特点 。 
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【 题 12.4】 机 群 系统 的 SSI 提供 了 哪些 服务 ? 

【 题 12.5】 机 群 系统 中 的 结 点 可 以 按照 功能 分 为 哪些 类 型 ? 它们 在 配置 上 有 何不 同 ? 

【 题 12.6】 根据 机 群 系统 的 使 用 目的 可 以 将 机 群 系统 分 为 哪 三 类 ? 它们 分 别 有 什 么 
特点 ? 

【 题 12.7】 试 描述 专用 机 群 和 企业 机 群 的 区 别 。 


题 解 


1. 概念 题 


【 题 12.1】 解释 下 列 名 词 

机 群 一 一 机 群 是 由 多 台 同 构 或 异 构 的 独立 计算 机 通过 高 性 能 网 络 连接 在 一 起 而 构成 的 
高 性 能 并 行 计算 机 系统 。 构 成 机 群 的 计算 机 都 拥有 自己 的 存储 器 ,1/O 设备 和 操作 系统 , 它 
们 在 机 群 操作 系统 的 控制 下 协同 完成 特定 的 并 行 计算 任务 。 对 用 户 和 应 用 来 说 ,机 群 就 是 
一 个 单一 的 系统 ,可 以 提供 低 价 高 效 的 高 性 能 环境 和 快速 可 靠 的 服务 。 

单一 系统 映像 一 -单一 系统 映像 具有 四 重 含义 。 首 先是 “单一 系统 ”, 尽 管 系统 中 有 多 
个 处 理 器 ,用 户 仍然 把 整个 机 群 视 为 一 个 单一 的 计算 系统 来 使 用 。 其 次 是 “单一 控制 ”, 在 让 
辑 上 ,最 终 用 户 或 系统 用 户 使 用 的 服务 都 来 自 机 群 中 唯一 的 一 个 位 置 。 三 是 “对 称 性 ”, 用 户 
可 以 从 机 群 的 任何 一 个 结 点 上 获得 服务 。 最 后 则 是 “位 置 透明 ”, 用 户 不 必 了 解 真 正 执行 服 
务 的 物理 设备 的 具体 位 置 。 

高 可 用 性 机 群 一 一 在 系统 中 某 些 结 点 出 现 故障 的 情况 下 , 仍 能 继续 对 外 提供 服务 。 它 
采用 宛 余 机 制 , 当 系 统 中 某 个 结 点 由 于 软 、 硬 件 故障 而 失效 时 ,该 结 点 上 的 任务 将 在 最 短 的 
时 间 内 被 迁移 到 机 群 内 另 一 个 具有 相同 功能 与 结构 的 结 点 上 继续 执行 。 

负载 均衡 机 群 一 一 提供 与 结 点 个 数 成 正比 的 负载 能 力 , 这 就 要 求 机 群 能 够 根据 系统 
中 各 个 结 点 的 负载 情况 实时 地 进行 任务 分 配 。 为 此 , 它 专门 设置 了 一 个 重要 的 监控 结 
点 ,负责 监控 其 余 每 个 工作 结 点 的 负载 和 状态 ,并 根据 监控 结果 将 任务 分 派 到 不 同 的 结 
点 上 。 

高 性 能 机 群 一 一 这 类 机 群 的 主要 目的 是 降低 高 性 能 计算 的 成 本 。 它 通过 高 速 的 商用 互 
连 网 络 , 将 数 十 个 乃至 上 千 台 PC 或 工作 站 连接 在 一 起 ,可 以 提供 接近 甚至 超过 传统 并 行 计 
算 机 系统 的 计算 能 力 ,但 其 价格 却 仅 是 具有 相同 计算 能 力 的 传统 并 行 计算 机 系统 的 几 十 分 
ee 

Beowulf 机 群 一 一 Beowulf 机 群 定义 了 这 样 一 种 系统 : 使 用 普通 的 硬件 加 上 Linux 操 
作 系统 、 再 加 上 GNU 开发 环境 以 及 PVM/MPI 共享 库 所 构建 的 机 群 。 它 一 方面 集中 了 那 
些 相对 较 小 的 机 器 的 计算 能 力 ,能 够 以 很 高 的 性 能 价格 比 提供 与 大 型 计算 机 相当 的 性 能 , 另 
一 方面 也 保证 了 软件 环境 的 稳定 性 。Beowulf 并 不 是 一 套 具体 的 软件 包 或 是 一 种 新 的 网 络 
拓扑 结构 , 它 只 是 一 种 思想 , 即 : 在 达到 既定 目标 的 前 提 下 ,把 注意 力 集中 在 获取 更 高 的 性 
能 价格 比 上 。 
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2. 问答 题 


【 题 12.2〗 答 : 机 群 系统 具有 许多 优点 。 

(1) 系统 开发 周期 短 。 由 于 机 群 系统 大 多 采用 商品 化 的 PC. 工作 站 作为 结 点 ,并 通过 
商用 网 络 连接 在 一 起 ,系统 开发 的 重点 在 于 通信 子 系统 和 并 行 编程 环境 上 ,这 大 大 节省 了 研 
制 时 间 。 

(2) 可 靠 性 高 。 机 群 中 的 每 个 结 点 都 是 独立 的 PC 或 工作 站 , 某 个 结 点 的 失效 并 不 会 影 
响 其 他 结 点 的 正常 工作 ,而 且 它 的 任务 还 可 以 迁移 到 其 他 结 点 上 继续 完成 ,从 而 有 效 地 避免 
由 于 单 结 点 失效 引起 的 系统 可 靠 性 问题 。 

(3) 可 扩 放 性 强 。 机 群 的 计算 能 力 随 着 结 点 数量 的 增加 而 增 大 。 这 一 方面 得 益 于 机 群 
结构 的 灵活 性 ,由 于 结 点 间 以 松 耦 合 方式 连接 ,机 群 的 结 点 数量 可 以 增加 到 成 百 上 千 ; 另 一 
方面 则 是 由 于 机 群 系统 的 硬件 容易 扩充 和 替换 ,可 以 灵活 配置 。 

(4) 性 能 价格 比 高 。 由 于 生产 批量 小 ,传统 并 行 计算 机 系统 的 价格 均 比 较 昂贵 ,往往 要 
几 百 万 到 上 千 万 美元 。 而 机 群 的 结 点 和 网 络 都 是 商品 化 的 计算 机 产品 ,能 够 大 批量 生产 ,成 
本 相对 较 低 ,因而 机 群 系统 的 性 能 价格 比 更 好 。 与 相同 性 能 的 传统 并 行 计算 机 系统 相 比 ,机 
群 的 价格 要 低 1 一 2 个 数量 级 。 

(5) 用 户 编程 方便 。 机 群 系统 中 ,程序 的 并 行 化 只 是 在 原 有 的 C、.C++ 或 FORTRAN 串 
行程 序 中 插入 相应 的 通信 原 语 , 对 原 有 串 行 程序 的 改动 有 限 。 用 户 仍然 使 用 熟悉 的 编程 环 
境 , 无 须 适应 新 的 环境 。 

【 题 12.3】 答 : IBM SP2 是 机 群 中 的 代表 性 产品 , 它 既 可 用 于 科学 计算 ,也 可 供 商 业 
应 用 。SP2 机 群 是 异步 的 MIMD, 具 有 分 布 式 存储 器 系统 结构 。 它 的 每 个 结 点 都 是 一 台 
RS/6000 工作 站 , 带 有 自己 的 存储 器 和 本 地 磁盘 。 结 点 中 采用 的 处 理 器 是 一 种 6 流出 的 超 
标量 处 理 机 。 每 个 结 点 配 有 一 套 完 整 的 AIX 操作 系统 (IBM 的 UNIX) , 结 点 间 的 互连网 络 
接口 是 松 耦 合 的 ,通过 结 点 本 身 的 1/O 微 通道 (MCC) 接 到 网 络 上 ,而 不 是 通过 本 身 的 存储 
器 总 线 。SP2 中 设置 了 一 个 专门 的 系统 控制 台 用 以 管理 整个 系统 。 通 过 该 系统 控制 台 , 系 
统管 理 人 员 可 以 从 单一 地 点 对 整个 系统 进行 管理 。 

【 题 12.4】 答 : 机 群 系统 中 的 SSI 至 少 应 该 提供 以 下 三 种 服务 。 

(1) 单一 登录 。 即 用 户 可 以 通过 机 群 中 的 任何 一 个 结 点 登录 ,而 且 在 整个 作业 执行 过 
程 中 只 需 登 录 一 次 ,不 必 因 作业 被 分 派 到 其 他 结 点 上 执行 而 重新 登录 。 

(2) 单一 文件 系统 。 这 有 两 方面 含义 。 首 先 , 在 机 群 系统 中 ,有 一 些 对 整个 机 群 所 有 结 
点 都 相同 的 软件 ,没有 必要 在 每 一 个 结 点 上 重复 安装 。 其 次 ,尽管 执行 并 行 作业 时 要 求 每 个 
结 点 都 可 以 访问 到 这 些 软件 ,但 它们 在 整个 机 群 系统 中 应 该 只 有 一 个 备份 。 

(3) 单一 作业 管理 系统 。 用 户 可 以 透明 地 从 任 一 结 点 提交 作业 ,作业 可 以 以 批 处 理 、 交 
互 或 并 行 的 方式 被 调度 执行 。 

【 题 12.5】〗】 答 : 按照 机 群 系统 中 各 结 点 的 功能 不 同 , 可 以 分 为 以 下 3 类 。 

(1) 计算 结 点 ,用 于 完成 计算 任务 。 

(2) 管理 /登录 结 点 ,它们 是 外 部 设备 和 机 群 系统 之 间 连 接 的 桥梁 ,任何 用 户 和 系统 的 
管理 员 都 只 能 通过 此 类 结 点 才能 登录 到 系统 中 。 此 外 ,管理 /登录 结 点 还 应 具有 管理 和 作业 
提交 等 功能 。 
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(3) 1/O 结 点 ,作为 NFS 文件 系统 的 主 结 点 ,1/O 结 点 一 般 由 存储 设备 、 网 络 文件 系统 
(NFS) 等 组 成 ,外 挂 磁盘 阵列 或 者 连接 其 他 存储 设备 ,负责 文件 的 IO 操作 ,其 他 结 点 访问 
存储 设备 的 请 求 都 要 通过 1/O 结 点 完成 。 

这 3 类 结 点 所 需 的 具体 硬件 配置 也 不 相同 。 计 算 结 点 需要 提供 很 强 的 计算 能 力 , 对 于 
某 些 应 用 而 言 特别 需要 强大 的 浮 点 计算 能 力 。 此 外 ,计算 结 点 还 应 提供 适量 的 内 存 ,使 运算 
时 数据 能 完全 驻 留 在 物理 内 存 中 ,并 能 够 支持 高 速 、 低 延迟 的 通信 网 络 。 而 系统 对 管理 / 登 
录 结 点 要 求 不 高 ,只 要 采用 相对 经 济 的 配置 就 可 以 了 。 

【 题 12.6】 答 : 根据 机 群 系统 的 使 用 目的 可 以 将 机 群 系统 分 为 以 下 3 类 。 

(1) 高 可 用 性 机 群 。 在 系统 中 某 些 结 点 出 现 故障 的 情况 下 , 仍 能 继续 对 外 提供 服务 。 
它 采用 和 宛 余 机 制 , 当 系 统 中 某 个 结 点 由 于 软 、 硬 件 故障 而 失效 时 ,该 结 点 上 的 任务 将 在 最 短 
的 时 间 内 被 迁移 到 机 群 内 另 一 个 具有 相同 功能 与 结构 的 结 点 上 继续 执行 。 这 样 ,对 于 用 户 
而 言 ,系统 可 以 一 直 为 其 提供 服务 。 

(2) 负载 均衡 机 群 。 提 供与 结 点 个 数 成 正比 的 负载 能 力 , 这 就 要 求 机 群 能 够 根据 系统 
中 各 个 结 点 的 负载 情况 实时 地 进行 任务 分 配 。 这 种 机 群 很 适合 大 规模 网 络 应 用 、 大 工作 量 
的 串 行 或 批 处 理 作业 。 

(3) 高 性 能 计算 机 群 。 降 低 高 性 能 计算 的 成 本 ,通过 高 速 的 商用 互连网 络 ,将 数 十 个 乃 
至 上 千 台 PC 或 工作 站 连接 在 一 起 ,可 以 提供 接近 甚至 超过 传统 并 行 计算 机 系统 的 计算 能 
力 , 但 其 价格 却 仅 是 具有 相同 计算 能 力 的 传统 并 行 计算 机 系统 的 几 十 分 之 一 。 

【 题 12.7】 答 : 专用 机 群 是 为 代替 传统 的 大 中 型 计算 机 或 巨型 计算 机 而 设计 的 ,装置 
比较 紧凑, 一般 都 装 在 比较 小 的 机 架 内 , 放 在 机 房 中 使 用 ,因此 它 的 吞吐 率 较 高 ,响应 时 间 也 
较 短 。 专 用 机 群 的 结 点 往往 是 同 构 的 ,一 般 采 用 集中 控制 ,由 一 个 (或 一 组 ) 管 理 员 统一 管 
理 ,而 且 用 户 一 般 需 要 通过 一 台 终 端 机 来 访问 它 。 

企业 机 群 是 为 了 充分 利用 各 个 结 点 的 空闲 资源 而 设计 的 ,因此 其 各 个 结 点 分 散 安 放 , 并 
不 需要 安装 在 同一 个 房间 ,甚至 不 需要 安排 在 同一 幢 楼 中 。 各 结 点 一 般 通过 标准 的 LAN 
或 WAN 互 连 , 通 信 开 销 较 大 、 延 迟 较 长 。 企 业 机 群 的 各 个 结 点 一 般 是 异 构 的 ,并 由 不 同 的 
个 人 拥有 ,这 样机 群 管理 者 只 能 对 各 个 结 点 进行 有 限 的 管理 , 结 点 拥有 者 可 以 随意 地 进行 关 
机 、 重 新 配置 或 者 升级 ,而 且 对 一 个 结 点 而 言 , 它 的 拥有 者 的 任务 应 该 具有 最 高 优先 级 ,高 于 
企业 的 其 他 用 户 。 


第 13 章 阵列 处 理 机 


13.1 基本 要 求 与 难点 


13.1.1 基本 要 求 


(1) 掌握 有 关 阵 列 处 理 机 的 基本 概念 。 

(2) 掌握 阵列 处 理 机 的 两 个 操作 模型 及 其 特点 。 

(3) 掌握 阵列 处 理 机 的 两 种 基本 结构 : 分 布 式 存储 器 的 阵列 机 ,共享 存储 器 的 阵列 处 
理 机 。 

(4) 理解 Illiac WV 阵列 处 理 机 和 BSP 计算 机 的 结构 和 特点 。 

(5) 掌握 llliac WV 阵列 的 64 个 处 理 单 元 的 连接 方式 。 

(6) 了 解 阵列 处 理 机 的 并 行 算法 举例 。 


13.1.2 难点 


(1) 阵列 处 理 机 的 两 种 基本 结构 。 
(2) IlliacTV 阵列 处 理 机 和 BSP 计算 机 的 结构 和 特点 。 


13.2 知识 要 点 


13.2.1 阵列 处 理 机 的 操作 模型 和 特点 


1. 阵列 处 理 机 的 操作 模型 


阵列 处 理 机 的 操作 模型 如 图 13. 1 所 示 。 它 是 用 一 个 控制 部 件 CU 同时 管理 多 个 处 理 
单元 PE。CU 对 指令 进行 译 码 ,并 把 指令 播送 到 各 处 理 单元 。 所 有 处 理 单 元 均 被 动 地 接收 
并 执行 从 控制 部 件 广播 来 的 同一 条 指令 ,但 它们 所 操作 的 对 象 却 是 不 同 的 数据 。 

阵列 处 理 机 的 操作 模型 可 用 五 元 组 表示 : 

阵列 处 理 机 一 CN,C,T,M,R) 
其 中 : 
(1) N 为 机 器 的 处 理 单元 (PE) 数 。 
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图 13.1 阵列 处 理 机 的 操作 模型 


(2) C 为 控制 部 件 CU 直接 执行 的 指令 集 ,包括 标量 指令 和 程序 流 控 制 指令 。 

(3) I 为 由 CU 广播 至 所 有 PE 进行 并 行 执行 的 指令 集 , 包 括 算术 运算 、 逻 辑 运算 、 数 据 
寻 径 、 屏 项 以 及 其 他 由 每 个 PE 对 它 的 数据 所 执行 的 局 部 操作 。 

(4) M 为 屏蔽 方案 集 ,其 中 ,每 种 屏蔽 将 所 有 PE 划分 成 允许 操作 和 禁止 操作 两 种 工作 
模式 。 

(5) R 为 数据 寻 径 功 能 集 ,说 明 互连网 络 中 PE 间 通 信和 所 需要 的 各 种 设置 模式 。 


2. 阵列 处 理 机 的 特点 


阵列 处 理 机 的 特点 如 下 。 

(1) 阵列 机 是 以 单 指令 流 多 数据 流 方式 工作 的 。 

(2) 阵列 机 是 通过 设置 多 个 相同 的 处 理 单元 来 开发 并 行 性 , 它 是 利用 并 行 性 中 的 同时 
性 ,而 不 是 并 发 性 。 所 有 处 理 单元 必须 同时 进行 相同 的 操作 。 这 与 利用 时 间 重 释 的 向 量 流 
水 处 理 机 是 不 一 样 的 。 

(3) 阵列 机 是 以 某 一 类 算法 为 背景 的 专用 计算 机 。 这 是 由 于 阵列 机 中 通常 都 采用 简 
单 、 规 整 的 互连网 络 来 实现 处 理 单元 间 的 连接 操作 ,从 而 限定 了 它 所 适用 的 求解 算法 类 别 。 

(4) 阵列 机 的 研究 必须 与 并 行 算法 的 研究 密切 结合 ,以 使 得 能 充分 发 挥 它 的 处 理 能 力 。 

(5) 阵列 机 的 控制 器 实质 上 是 一 台 标 量 处 理 机 :而 为 了 完成 I/O 操作 以 及 操作 系统 的 
管理 , 尚 需 一 个 前 端 机 。 因 此 实际 的 阵列 机 系统 是 由 上 述 三 部 分 构成 的 一 个 异 构 型 多 处 理 
机 系统 。 


13.2.2 阵列 处 理 机 的 基本 结构 


1. 分 布 式 存储 器 的 阵列 机 


分 布 式 存储 器 的 阵列 机 中 有 多 个 相同 的 处 理 单元 PE, 每 个 PE 有 各 自 的 本 地 存储 器 
LM。PE 之 间 通 过 数据 寻 径 网 络 以 一 定 方 式 互相 连接 。 它 们 在 阵列 控制 部 件 的 统一 指挥 
下 ,实现 并 行 操作 。 由 于 通过 控制 部 件 的 是 单 指令 流 , 所 以 指令 的 执行 顺序 还 是 和 单 处 理 机 
一 样 ,基本 上 是 串 行进 行 。 程 序 和 数据 是 通过 主机 装 入 控制 存储 器 。 

指令 送 到 控制 部 件 进行 译 码 。 如 果 是 标量 指令 , 则 直接 由 标量 处 理 机 执行 。 如 果 是 向 
量 指令 , 则 阵列 控制 部 件 通过 广播 总 线 将 它 广播 到 所 有 PE 中 去 并 行 地 执行 。 
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执行 程序 所 需 的 数据 集 经 划分 后 通过 数据 总 线 分 布 存放 到 各 PE 的 本 地 存储 器 LM。 
各 PE 之 间 通 过 数据 寻 径 网 络 互 连 , 实 现 PE 间 的 通信 ,如 移 数 .置换 和 其 他 寻 径 操作 。 控 制 
部 件 通过 执行 程序 来 控制 数据 寻 径 网 络 。 

PE 的 同步 是 在 控制 部 件 的 控制 下 由 硬件 实现 。 我 们 可 以 做 到 让 所 有 PE 在 同一 个 周 
期 执行 同一 条 指令 ,也 可 以 做 到 通过 采用 屏蔽 逻辑 来 控制 某 些 PE 在 指定 的 指令 周期 是 否 
参与 执行 。llliac 是 这 种 结构 的 SIMD 阵列 处 理 机 , 它 由 64 个 带 本 地 存储 器 的 PE 组 成 ， 
PE 间 通 过 8X8 环绕 连接 网 络 实现 互 连 。 


2. 共享 存储 器 的 阵列 机 


共享 存储 器 的 阵列 处 理 机 中 ,共享 的 多 体 并 行 存储 器 SM 通过 对 准 网 络 与 各 处 理 单元 
PE 相连 。 存 储 模块 的 数目 等 于 或 略 大 于 处 理 单元 的 数目 。 为 了 减少 存储 器 访问 冲突 , 必 
须 将 数据 合理 地 分 配 到 各 存储 器 模块 中 。 通 过 灵活 高 速 的 对 准 网 络 , 使 存储 器 与 处 理 单元 
之 间 的 数据 传送 在 大 多 数 向 量 运算 中 都 能 以 存储 器 的 最 高 频率 进行 。 这 种 共享 存储 器 模块 
在 处 理 单元 数目 不 太 大 的 情况 下 是 很 理想 的 。 例 如 ,美国 宝来 公司 的 BSP 计算 机 
(Burroughs Scienticfic Processor) 采 用 了 这 种 结构 。16 个 PE 通过 一 个 16X17 的 对 准 网 络 
访问 17 个 共享 存储 器 模块 。 存 储 器 模块 数 与 PE 个 数 是 互 质 的 ,可 以 实现 无 冲突 并 行 访问 
存储 器 。 

所 有 阵列 指令 都 必须 使 用 长 度 为 的 向 量 操作 数 , 其 中 ,n 为 PE 的 个 数 。SIMD 指令 
与 流水 向 量 处 理 机 的 指令 类 似 , 不 同 之 处 是 用 多 个 PE 的 空间 并 行 性 代替 了 流水 线 的 时 间 
并 行 性 。 

上 述 阵列 处 理 机 的 所 有 1/O 操作 都 是 由 主机 处 理 的 。 在 主机 和 阵列 控制 部 件 之 间 有 
一 个 专用 的 控制 存储 器 ,用 于 存放 程序 和 数据 。 


13.2.3 阵列 处 理 机 实例 


1. 实例 1: Illiac 了 阵列 处 理 机 


Illliac 阵列 处 理 机 是 美国 宝来 公司 和 伊利 诺 大 学 合作 研制 生产 的 机 器 , 它 于 1972 年 
问世 ,是 最 早 的 阵列 处 理 机 。 

IlliacT 实际 上 是 一 个 由 3 种 类 型 处 理 机 联合 组 成 的 多 机 系统 。 这 3 个 处 理 机 是 : 

(1) 专门 用 于 数组 运算 的 处 理 单元 阵列 。 

(2) 阵列 控制 器 (CU) , 它 既 是 处 理 单 元 阵列 的 控制 部 分 ,又 可 以 看 作 一 台 相 对 独立 的 
小 型 标量 处 理 机 。 

(3) 一 台 标 准 的 B6700 计算 机 ,担负 Illiac 人 输入 输出 系统 和 操作 系统 管理 功能 。 

1) Illiac KV 阵列 

Jlliac 阵列 由 64 个 处 理 单元 (PE)、64 个 本 地 存储 器 (PEM) 和 存储 器 逻辑 部 件 
(MLU) 组 成 。 把 每 个 PE 和 PEM 对 看 成 是 一 个 处 理 部 件 PU, 则 这 个 阵列 的 64 个 处 理 部 
件 PU 一 PUes 排 列 成 一 个 8X8 方 阵 。 每 一 个 PU; 只 和 其 左 、 右 、 上 、 下 的 4 个 近邻 PU-; 
(mod64) .PUiii1(mod64) .PU;_s (mod64) .PUi;s (mod64) 有 直接 连接 。 按 此 规则 ,上 下 方向 
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上 同一 列 的 PU 两 端 相连 成 一 个 环 ,左右 方向 上 每 一 行 的 右 端 PU 与 下 一 行 的 左 端 PU 相 
连 ,并 且 最 下 面 一 行 的 右 端 PU 与 最 上 面 一 行 的 左 端 PU 相连 ,从 而 构成 了 一 个 闭合 的 螺 线 
形状 。 因 此 ,llliac K 的 阵列 结构 又 称 为 闭合 螺 线 阵 列 。 这 种 连接 方式 既 便于 一 维 长 向 量 的 
处 理 , 又 便于 二 维 数组 运算 ,以 缩短 处 理 单元 之 间 的 路 径 距 离 。 步 距 不 等 于 士 1 或 士 8 的 任 
意 处 理 单元 间 通 信 可 用 软件 方法 寻找 最 短路 径 进行 ,其 最 短 距离 都 不 会 超过 7 步 。 

每 一 个 处 理 单元 有 一 个 自己 的 本 地 存储 器 PEM。64 个 PEM 联合 组 成 阵列 存储 器 , 存 
放 数 据 和 指令 。 整 个 阵列 存储 器 可 以 接收 控制 器 的 访问 , 读 出 8 个 字 的 信息 到 它 的 缓冲 器 
中 ,也 可 经 过 1024 位 的 总 线 与 1/O 开关 相连 。 但 是 每 一 个 处 理 单元 只 能 访问 自己 的 本 地 存 
储 器 PEM。 分 布 在 各 PEM 中 的 公共 数据 只 能 在 读 出 到 控制 器 CU 后 ,再 经 公共 数据 总 线 
广播 到 64 个 处 理 单元 中 。 这 不 但 节省 了 存储 空间 ,而 且 人 允许 公共 数据 的 存 取 与 其 他 操作 在 
时 间 上 重 琶 。 这 样 , 阵 列 存储 器 就 如 同一 个 二 维 访问 的 存储 器 。 

2) 阵列 控制 器 

阵列 控制 器 CU 实际 上 是 一 台 小 型 计算 机 。 它 除了 对 阵列 的 处 理 单元 进行 控制 以 外 ， 
还 能 利用 本 身 的 内 部 资源 执行 一 整套 指令 ,用 以 完成 标量 操作 。 而 且 这 些 操作 可 以 与 各 PE 
的 数组 操作 并 行进 行 。 

阵列 控制 器 的 功能 如 下 。 

(1) 对 指令 流 进行 控制 和 译 码 , 包 括 执 行 一 整套 标量 指令 ; 

(2) 向 各 处 理 单元 发 出 执行 数组 操作 指令 所 需 的 控制 信号 ; 

(3) 产生 并 向 所 有 处 理 单元 广播 公共 的 地 址 部 分 ; 

(4) 产生 并 向 所 有 处 理 单元 广播 公共 的 数据 ; 

(5) 接收 和 处 理由 各 PE 计算 出 错 、 系 统 1/O 操作 以 及 B6700 所 产生 的 陷阱 中 断 信号 。 

3) 输入 输出 系统 

IlliacNN 输 入 输出 系统 由 磁盘 文件 系统 DFS、1/O 分 系统 和 B6700 管理 计算 机 组 成 。 

4) B6700 管理 计算 机 

B6700 的 作用 是 : 管理 全 部 系统 资源 ,完成 用 户 程序 的 编译 或 汇编 ,为 lliac WV 进行 作 
业 调 度 、 存 储 分 配 、 产 生 1/O 控制 描述 字 送 至 CDC、 处 理 中 断 、 提 供 操作 系统 所 具备 的 其 他 
服务 等 。 


2. 实例 2: BSP 计算 机 


BSP 计算 机 是 由 美国 宝来 公司 和 伊利 诺 依 大 学 于 1979 年 制造 的 。 它 是 共享 存储 器 结 
构 的 SIMD 计算 机 的 典型 代表 。 其 最 高 处 理性 能 为 每 秒 5 千 万 次 浮 点 运算 。 

BSP 采用 了 全 面 的 并 行 化 措施 。 它 不 是 依靠 提高 时 钟 周期 频率 来 提高 性 能 ,而 是 依靠 
并 行 性 。 它 的 处 理 器 和 存储 器 的 时 钟 周期 都 是 160ns, 其 时 钟 频率 在 巨型 处 理 机 中 是 比较 
低 的 ,但 它 依靠 重复 设置 的 16 个 处 理 单元 , 仍 能 获得 与 Cray-1 流水 线 处 理 机 相当 的 向 量 处 
理 速 度 。 

BSP 不 是 一 台独 立 运行 的 计算 机 ,而 是 附属 于 系统 管理 计算 机 B7700/B7800 的 后 端 处 
理 机 。BSP 承担 主要 的 计算 任务 ,而 系统 管理 机 则 负责 进行 BSP 程序 的 向 量化 编译 和 连 
接 .与 远程 终端 及 网 络 的 数据 通信 、 外 围 设 备 管理 等 ,大 多 数 的 BSP 作业 调度 和 操作 系统 活 
动 也 是 在 系统 管理 机 上 完成 的 。 
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1) BSP 处 理 机 

并 行 处 理 机 包含 16 个 算术 单元 AE、 由 17 个 存储 体 组 成 的 一 个 无 冲突 访问 的 并 行 存 
储 器 和 两 套 对 准 网 络 ( 分 别 为 人 口 和 出 口 对 准 网 络 )。 它 们 形成 了 一 条 5 级 的 数据 流水 线 。 
这 5 级 的 功能 依次 是 : 

(1) 由 17 个 存储 器 输出 端口 并 行 读 出 16 个 操作 数 ; 

(2) 经 对 准 网 络 NW 将 16 个 操作 数 重新 排列 ,形成 16 个 算术 单元 所 需要 的 顺序 ; 

(3) 将 排列 好 的 16 个 操作 数 送 到 16 个 算术 单元 进行 处 理 ; 

(4) 所 得 的 16 个 结果 经 对 准 网 络 NW:* 重 新 排列 成 在 17 个 存储 体 中 存储 所 需要 的 
次 序 ; 

(5) 写 人 并 行 存储 器 。 

该 流水 线 使 连续 几 条 向 量 指令 能 在 时 间 上 重 秋 起 来 执行 。 

两 套 对 准 网 络 的 作用 分 别 是 在 读 或 写 并 行 存储 器 时 ,使 并 行 存储 器 中 为 保证 无 冲突 访 
问 而 错开 存放 的 操作 数 顺序 能 够 与 算术 单元 并 行 处 理 要 求 的 正常 顺序 协调 一 致 。 整 个 流水 
线 由 统一 的 指令 译 码 和 控制 部 件 进行 控制 。 

这 种 流水 线 对 提高 系统 处 理 效 率 有 很 大 作用 。 第 一 ,有 效 地 实现 了 处 理 单元 ,存储 器 和 
互连网 络 在 时 间 上 重 伙 工作 ,在 理想 情况 下 能 取得 带宽 的 完全 匹配 。 第 二 ,可 把 大 于 16 的 
任意 长 度 的 向 量 按 16 个 分 量 的 标准 长 度 分 为 若干 段 ,依次 在 时 间 上 重 又 起 来 进行 处 理 。 第 
三 ,实现 不 同 向 量 指令 的 重 释 执 行 。 

进行 向 量 运算 的 数据 保存 在 由 17 个 存储 体 组 成 的 并 行 存储 器 中 ,每 个 存储 体 的 容量 可 
达 512K 字 ,存储 周 期 为 160ns。 数 据 在 存储 体 和 AE 之 间 以 每 秒 100MB 的 速率 进行 传输 。 
17 个 存储 体 组 成 一 个 无 冲突 访问 存储 器 , 它 允 许 对 任意 长 度 以 及 跳 距 不 是 17 的 倍数 的 向 
量 实现 无 冲突 存 取 。 

对 准 网 络 包含 完全 交叉 开关 以 及 用 来 实现 数据 从 一 个 源 广播 至 几 个 目的 地 的 硬件 ,还 
包含 当 几 个 源 寻找 同一 个 目的 地 时 能 分 解 冲突 的 硬件 。 在 算术 单元 阵列 和 并 行 存储 器 的 存 
储 体 之 间 具 备 通用 的 互 连 特性 ,而 存储 体 和 对 准 网 络 的 组 合 功能 则 提供 了 并 行 存储 器 的 无 
冲突 访问 的 能 力 。 

2) BSP 并 行 存储 器 

BSP 并 行 存储 器 由 17 个 存储 体 组 成 。16 个 AE 在 每 个 存储 周期 对 并 行 存 储 器 存 / 取 
16 个 字 。16 个 AE 执行 一 次 浮 点 加 / 减 / 乘 法 运算 需要 32 个 操作 数 ,故而 需要 用 两 个 周期 
从 并 行 存储 器 中 获得 ,而 算术 单元 的 浮 点 加 、 减 、 乘 运算 都 能 在 两 个 周期 内 完成 。 因 此 ,并 行 
存储 器 的 带宽 同 算术 单元 的 浮 点 运算 的 带宽 保持 完全 平衡 ,从 而 可 将 并 行 存储 器 的 存 取 操 
作 同 16 个 算术 单元 的 运算 操作 按时 间 重 又 进行 流水 处 理 。 

BSP 并 行 存储 器 的 一 个 独特 的 性 能 就 是 它 可 以 实现 无 冲突 访问 。 对 于 数组 , 它 可 以 按 
行 、 列 、 对 角 线 等 进行 访问 而 不 会 产生 冲突 。 实 现 无 冲突 访问 的 硬件 支持 包括 : 质数 个 存储 
器 端口 (存储 体 数 是 质数 17) ; 存储 端口 和 AE 之 间 的 交叉 开关 (对 准 网 络 ); 以 及 特殊 的 存 
储 器 地 址 生成 机 构 。 

在 BSP 中 , 当 对 数组 的 同一 行 、 同 一 列 、 主 对 角 线 、 次 对 角 线 的 元 素 并 行 地 读 取 时 都 不 
会 发 生 访问 存储 体 的 冲突 ,因为 它们 在 不 同 的 存储 体 中 。 

BSP 有 16 个 算术 单元 , 即 N= 二 16 ,存储 体 数 M 二 17, 因 此 ,并 行 存储 器 的 每 个 访问 周期 
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总 有 一 个 存储 体 未 被 利用 ,使 得 并 行 存储 器 的 空间 利用 率 和 存储 器 带宽 都 浪费 了 1/17, 但 
是 这 种 损失 却 换 来 了 对 存储 器 的 无 冲突 访问 。 


13.2.4 阵列 处 理 机 的 并 行 算法 举例 


1. 有 限 差 分 问题 


有 限 差分 方法 是 求解 场 方程 的 一 种 有 效 方法 。 它 把 一 个 有 规则 的 网 格 覆盖 在 整个 场 域 
上 ,用 网 格 点 上 的 变量 值 写 出 差分 方程 组 以 代替 场 方程 来 进行 计算 。 

lliacR 在 计算 时 ,是 把 内 部 网 格 点 分 配给 各 个 处 理 单元 。 因 此 ,其 计算 过 程 可 以 并 行 
地 完成 ,从 而 大 幅度 地 提高 处 理 速度 。 由 于 实际 问题 所 遇 到 的 内 部 网 格 点 数目 往往 是 很 大 
的 ,因此 需要 将 其 分 成 许多 子 网 络 ,然后 才能 在 Iliac W 上 求解 。 


2. 矩阵 加 


在 阵列 处 理 机 上 解决 矩阵 加 法 问题 是 最 简单 的 一 维 情况 。 考 虑 两 个 8 关 8 的 矩阵 A 和 
B 的 相 加 ,所 得 结果 矩阵 C 也 是 一 个 8X8 的 矩阵 。 把 4.B、C 中 位 于 相应 位 置 的 分 量 存放 
在 同一 PEM 内 ,假设 A 的 分 量 在 全 部 64 个 PEM 中 存放 的 单元 地 址 都 是 a,B 的 全 部 分 量 
的 地 址 都 是 a 十 1,C 的 全 部 分 量 的 地 址 都 是 a 十 2。 这 样 ,只 需 用 下 列 3 条 llliac W 的 汇编 指 
令 就 可 以 实现 矩阵 相 加 。 


IDA ALPHA ;全 部 A 的 分 量 由 PEM; 送 PE 的 累加 器 RGAs 
ADRN ALPHA+1 ;全 部 B 的 分 量 与 (RGA; ) 进行 浮 点 加 ,结果 送 RGA; 
STA ALPHA+2 ;全 部 (RGAi ) 由 PE; 送 PEM; 的 a+2 单元 

3. 矩阵 乘 


矩阵 乘 是 二 维 数组 运算 , 比 矩 阵 加 要 复杂 许多 。 设 4B 和 C 为 3 个 8X8 的 二 维 矩 阵 。 
若 给 定 4 和 B, 则 C=Ax*B 的 64 个 分 量 可 利用 下 列 公式 计算 。 


7 
6 = Danbys Oiy dT 
= 


如 果 在 SIMD 阵列 处 理 机 上 求解 这 个 问题 ,可 以 利用 8 个 处 理 单元 并 行 计算 i 或 者 j 
的 8 个 循环 ,从 而 消去 一 重 循 环 。 例如, 并行 计 算 j 的 8 个 循环 , 则 ik 循环 照旧 。 这 时 可 
执行 下 列 FORTRAN 程序 : 
D0 10 i=0,7 
c(i,j)=0 
DO10k=0,7 
10 C(i,j) =C(i,j)+A(i,k) *B(k,j) 


这 样 , 便 可 把 速度 提高 到 原来 的 8 倍 , 即 每 个 处 理 单元 的 计算 时 间 缩 短 为 64 次 乘 加 
时 间 。 

如 果 把 liac 人 的 64 个 处 理 单元 全 部 利用 起 来 并 行 计 算 , 即 把 & 循环 的 运算 也 改 为 并 
行 , 则 可 进一步 提高 速度 。 但 这 需要 重新 在 阵列 存储 器 中 恰当 地 分 配 数据 ,还 要 能 使 8 个 中 
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间 积 A(i,k) XXB(k, 站 能 并 行 相 加 (0 三 k 三 7)。 这 就 要 用 到 下 面 的 累加 和 并 行 算法 。 不 过 ， 
即便 如 此 ,就 & 的 并 行 来 说 ,速度 的 提高 不 是 8 倍 , 而 是 8/logs82.7 售 。 


4. 累加 和 


这 是 一 个 将 N 个 数 的 顺序 相 加 转变 为 并 行 相 加 的 问题 。 这 个 计算 任务 要 用 到 处 理 单 
元 中 的 活动 标志 位 。 只 有 处 于 活动 状态 的 处 理 单元 ,才能 执行 相应 的 操作 。 


习 题 
1. 概念 题 


【 题 13.1】 解释 以 下 名 词 
阵列 处 理 机 “阵列 控制 器 分 布 式 存储 器 的 阵列 机 ”共享 存储 器 的 阵列 机 








2. 填空 题 
【 题 13. 2】 阵列 处 理 机 又 称 为 。 其 采用 的 主要 技术 手段 是 硬件 上 采用 
的 方法 来 实现 并 行 性 。 
【 题 13. 3〗 阵列 处 理 机 操作 模型 用 五 元 组 表示 : 阵列 处 理 机 =(N,C,T,M,R) ,其 中 ， 
N 表示 机 器 的 个 数 , 工 表示 由 控制 部 件 CU 广播 至 所 有 PE 进行 并 行 执行 的 
,M 为 ,其 中 每 种 屏蔽 将 所 有 PE 划分 成 和 两 种 工作 
模式 。 
【 题 13.4】 多 处 理 机 与 并 行 处 理 机 的 本 质 差别 在 于 并 行 性 级 别 的 不 同 : 多 处 理 机 实现 
的 并 行 , 而 并 行 处 理 机 则 实现 同一 指令 多 数据 流 的 的 并 行 。 
【 题 13. 5】 阵列 处 理 机 的 基本 结构 可 分 为 的 阵列 机 和 的 阵列 机 两 
大 类 。 


【 题 13.6】 Illiac V 阵列 处 理 机 处 理 单元 PE 之 间 互 连用 互 连 函 数 表 示 为 。 
【 题 13.7】 Illiac KW 阵列 机 是 一 个 由 以 下 3 种 类 型 处 理 机 联合 组 成 的 多 机 系统 : 处 











理 部 件 阵 列 PU 专门 用 于 运算 ; 回 阵列 控制 器 CU 是 一 台 相 对 独立 的 小 型 
处 理 机 ; @B6700 计算 机 担负 1/O 系统 和 操作 系统 管理 功能 。 

【 题 13. 8】 Iliac KV 阵列 PU 由 64 个 64 个 和 存储 器 逻辑 部 件 
(MLU) 组 成 。 

【 题 13.9】 BSP 计算 机 采用 存储 器 结构 。 它 有 个 处 理 单元 ,并 行 存 
储 器 的 存储 体 个 数 为 ”  __。 

【 题 13. 10〗 BSP 处 理 机 由 三 部 分 构成 : 和 和 

3. 问答 题 


【 题 13.11】 简 述 阵列 处 理 机 的 特点 。 
【 题 13.12】 阵列 处 理 机 在 系统 组 成 上 应 包含 哪些 部 分 和 功能 ? 





278 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 





【是 13. 13】 试 分 析 与 比较 阵列 处 理 机 与 向 量 计算 机 的 相同 与 不 同 。 
【是 13.14】 简 述 阵列 处 理 机 的 分 布 式 存储 器 与 共享 存储 器 的 异同 。 


4. 应 用 题 
【 题 13.15】 在 集中 式 主 存 的 阵列 处 理 机 中 ,处 理 单元 数 为 4, 为 了 使 4X4 的 二 维 数组 
A 的 各 元 素 aj (一 0 一 3 一 0 一 3) 在 行 、 列 . 主 /次 对 角 线 上 均 能 实现 无 冲突 访问 ,请 填 出 数 


组 各 元 素 在 存储 器 各 分 体 (分 体 号 从 0 开始 ) 中 的 分 布 情况 。 假 设 co 已 放 在 分 体 号 为 3, 体 
内 地 址 为 ;十 0 的 位 置 , 如 表 13. 1 所 示 。 


表 13.1 数组 各 元 素 在 存储 器 各 分 体 中 的 分 布 情况 


分 体 号 
体内 地 二 0 1 2 3 4 
大 大 Qoo 
































【 题 13.16】 设 并 行 存储 器 的 体 数 M 王 7( 质 数 ) ,运算 单元 数 N= 二 6。 考 虑 下 述 4X5 的 


数组 : 
Qoo do do do3 Qo4 
Qio QI dl dl13 dam 
dz0 dz21 ld22 ld23 ld24 
Q30 dd3l U32 433 U34 


按 BSP 地 址 映像 规则 , 写 出 这 个 4X5 二 维 数组 在 M=7、N=6 的 BSP 并 行 存储 器 中 
存储 的 情况 。 


题 解 


1. 概念 题 


【 题 13.1】 解释 以 下 名 词 

阵列 处 理 机 一 一 又 称 为 并 行 处 理 机 、SIMD 计算 机 。 其 核心 是 一 个 由 多 个 处 理 单 元 构 
成 的 阵列 ,用 单一 的 控制 部 件 来 控制 多 个 处 理 单元 对 各 自 的 数据 进行 相同 的 运算 和 操作 。 

阵列 控制 器 一 一 阵列 控制 器 实际 上 是 一 台 计 算 机 , 它 除了 对 阵列 的 处 理 单元 实行 控制 
以 外 ,还 能 利用 本 身 的 内 部 资源 执行 一 整套 指令 ,用 以 完成 标量 操作 , 且 在 时 间 上 与 各 处 理 
单元 的 数组 操作 并 行进 行 。 

分 布 式 存储 器 的 阵列 机 一 一 它 含 有 多 个 同样 结构 的 处 理 单元 PE, 通 过 数据 寻 径 网 络 以 
一 定 方式 互相 连接 。 每 个 PE 有 各 自 的 本 地 存储 器 。 在 阵列 控制 部 件 的 统一 指挥 下 ,实现 
并 行 操作 。 
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共享 存储 器 的 阵列 机 一 一 这 类 处 理 机 中 集中 设置 存储 器 。 共 享 的 多 体 并 行 存储 器 通过 
对 准 网 络 与 各 处 理 单元 相连 。 存 储 模块 的 数目 等 于 或 略 大 于 处 理 单元 的 数目 。 为 了 减少 存 
储 器 访问 冲突 ,必须 将 数据 合理 地 分 配 到 各 存储 器 模块 中 。 通 过 灵活 高 速 的 对 准 网 络 ,使 存 
储 器 与 处 理 单元 之 间 的 数据 传送 在 大 多 数 向 量 运 算 中 都 能 以 存储 器 的 最 高 频率 进行 。 


2. 填空 题 





【 题 13.2】 答 : 并 行 处 理 机 、 资 源 重复 

【 题 13.3】 答 : 处 理 单元 、 指 令 集 、. 屏 项 方案 集 、 允 许 操作 、 禁 止 操作 
【 题 13.4】 答 : 任务 一 级 、 操 作 一 级 

【 题 13.5】 答 : 分 布 式 存储 器 .共享 式 存储 器 

【 题 13. 6〗 答 : PM2:, 和 PM2:3 

【 题 13.7】 答 : 数组 ,标量 

【 题 13.8】〗 答 : 处 理 单元 (PE) .局 部 存储 器 (PEM) 
【 题 13.9】 答 : 共享 .16 、17 

【 题 13.10】 答 : 控制 处 理 机 、 并 行 处 理 机 、 文 件 存储 器 
3. 问答 题 

【 题 13.11】 答 : 





(1) 阵列 机 是 以 单 指令 流 多 数据 流 方式 工作 的 。 

(2) 阵列 机 是 通过 设置 多 个 相同 的 处 理 单元 来 开发 并 行 性 , 它 是 利用 并 行 性 中 的 同时 
性 ,而 不 是 并 发 性 。 所 有 处 理 单元 必须 同时 进行 相同 的 操作 。 

(3) 阵列 机 是 以 某 一 类 算法 为 背景 的 专用 计算 机 。 这 是 由 于 阵列 机 中 通常 都 采用 简 
单 . 规 整 的 互连网 络 来 实现 处 理 单元 间 的 连接 操作 ,从 而 限定 了 它 所 适用 的 求解 算法 类 别 。 

(4) 阵列 机 的 研究 必须 与 并 行 算法 的 研究 密切 结合 ,以 使 得 能 充分 发 挥 它 的 处 理 能 力 。 

(5) 阵列 机 的 控制 器 实质 上 是 一 台 标量 处 理 机 ,而 为 了 完成 W/O 操作 以 及 操作 系统 的 
管理 , 尚 需 一 个 前 端 机 。 因 此 实际 的 阵列 机 系统 是 由 上 述 三 部 分 构成 的 一 个 异 构 型 多 处 理 
机 系统 。 

【 题 13.12】 答 : 

(1) 重复 设置 大 量 的 处 理 单元 用 规整 灵活 的 互连网 络 互 连 ,组 成 处 理 单元 阵列 ; 

(2) 用 专门 的 并 行 算法 对 数组 、 向 量 中 的 元 素 进行 并 行 处 理 ; 

(3) 用 一 台 高 性 能 处 理 机 来 进行 标量 处 理 和 控制 互连网 络 的 连接 ; 

(4) 用 一 台 管 理 处 理 机 来 运行 系统 程序 和 输入 输出 任务 。 

【 题 13.13】 答 : 阵列 处 理 机 和 向 量 计算 机 的 相同 点 是 两 种 计算 机 都 能 对 大 量 数据 进 
行 向 量 处 理 , 特 别 适合 于 高 速 数 值 计算 。 

不 同 点 是 阵列 处 理 机 获得 高 处 理 速 度 的 主要 原因 是 采用 资源 重复 的 并 行 措施 ,多 个 处 
理 单元 并 行 工 作 ; 向 量 计算 机 依靠 的 是 多 功能 流水 线 部 件 , 采 用 时 间 重 琶 提 高 速度 。 另 一 
区 别 是 阵列 处 理 机 有 它 的 互连网 络 。 

【 题 13.14】 答 : 分 布 式 存储 器 的 阵列 机 与 共享 存储 器 的 阵列 机 的 相同 点 是 都 存在 互 
连 网 络 。 不 同 点 是 在 共享 内 存 方案 中 ,共享 的 多 体 并 行 存 储 器 通过 对 准 网 络 与 各 处 理 单元 
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相连 。 在 分 布 式 内 存 方案 中 ,每 个 处 理 单元 都 有 自己 的 本 地 存储 器 ,处 理 单元 之 间 的 数据 通 
信 通 过 数据 寻 径 网 络 完成 。 


4. 应 用 题 


【 题 13. 15 
解 : 数组 各 元 素 在 各 存储 器 分 体 中 分 布 情况 如 表 13. 2 所 示 。 


表 13.2 数组 各 元 素 在 各 存储 器 分 体 中 分 布 情况 



































分 休 本 0 1 2 3 4 
体内 地 址 
i+0 Qo2 aos aoo aol 
i ano an Qa Qs 
i+2 23 az0 Qal Q22 
i 十 3 aal Qa2 Qs Qa0 
【是 13. 16】 


解 : 二 维 数组 在 BSP 并 行 存 储 器 中 存储 的 情况 如 图 13. 2 所 示 。 








数组 元 素 | ao | 910 | 420 a0 | mi an[a 1 |a02| ap 加 区 G03| 13| 223 | 033 | G04 | 904 | 924 | 034 
线性 地 址 4 0 1 2 15 16 17 18 19 
体 号 i 0 1 2 | 六 
体内 地 址 ; 0 0 0 2 2 4 


































































































图 13.2 二 维 数组 在 BSP 并 行 存储 器 中 存储 的 情况 


第 14 章 ”数据 流 计算 机 


14.1 基本 要 求 与 难点 


14.1.1 基本 要 求 


(1) 掌握 有 关 数 据 流 计 算 机 的 基本 概念 。 

(2) 掌握 数据 流 计 算 机 的 数据 驱动 原理 、 指 令 的 执行 过 程 以 及 数据 流 计算 机 的 指令 
结构 。 

(3) 理解 用 于 数据 流程 序 图 的 常用 结 点 ,并 能 熟练 地 画 出 数据 流程 序 图 。 

(4) 掌握 静态 数据 流 计算 机 的 结构 和 工作 原理 。 

(5) 掌握 动态 数据 流 计算 机 的 结构 和 工作 原理 。 

(6) 了 解数 据 流 计算 机 的 优 缺点 。 


14.1.2 难点 


(1) 画 数据 流程 序 图 。 
(2) 动态 数据 流 计算 机 的 结构 和 工作 原理 。 


14.2 知识 要 点 


14.2.1 数据 流 计 算 机 的 基本 原理 


1. 数据 驱动 原理 


数据 流 计 算 机 一 般 采 用 数据 驱动 方式 工作 , 它 没 有 程序 计数 器 ,没有 常规 的 变量 概念 。 
它 的 指令 是 在 数据 可 用 性 的 控制 下 并 行 执行 的 。 其 基本 原理 可 以 归纳 为 : 

(1) 当 且 仅 当 指令 所 需要 的 数据 可 用 时 ,该 指令 即 可 执行 。 

(2) 任何 操作 都 是 纯 函 数 操作 。 

上 述 的 数据 驱动 计算 只 是 数据 流 计算 机 中 驱动 方式 的 一 种 。 还 有 一 种 叫 需求 驱动 计 
算 ,也 称 需 求 驱动 方式 。 它 只 在 当 某 一 个 函数 需要 用 到 某 一 个 自 变量 时 才 驱 动 对 该 自 变量 
的 求 值 操作 。 前 者 是 一 种 提前 计算 的 策略 ,而 后 者 则 是 按 需 求 值 , 是 一 种 滞后 计算 的 策略 。 
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目前 大 多 数 数据 流 计算 机 都 是 采用 数据 驱动 方式 。 


2. 数据 流 计 算 机 中 指令 的 执行 过 程 
在 数据 流 计算 机 中 ,用 数据 令 牌 传送 数据 并 激活 指令 ,用 一 种 有 向 图 来 表示 数据 流程 
序 。 一 条 指令 主要 由 一 个 操作 码 .一 个 或 几 个 操作 数 .一 个 或 几 个 后 继 指令 地 址 组 成 。 后 继 


指令 地 址 用 于 把 本 指令 的 执行 结果 送 往 需要 这 个 数据 的 指令 中 。 
数据 驱动 具有 以 下 特性 。 
(1) 异步 性 : 只 要 指令 所 需 的 数据 令 牌 都 已 到 达 , 指 令 即 可 独立 地 开始 执行 ,而 不 必 关 
心 其 他 指令 及 数据 的 情况 。 
(2) 并 行 性 : 可 同时 并 行 执行 多 条 指令 。 
(3) 函数 性 : 由 于 不 使 用 共享 的 数据 存储 单元 ,所 以 数据 流程 序 不 会 产生 诸如 改变 存 
储 字 这 样 的 副作用 ,也 就 是 说 数据 流 运算 是 纯 函 数 性 的 。 
(4) 局 部 性 : 运算 过 程 中 所 产生 的 数据 不 是 用 操作 数 的 地 址 来 引用 ,而 是 作为 数据 令 
牌 直接 传送 ,因此 数据 流 运算 没有 产生 长 远 影 响 的 结果 ,其 运算 具有 局 部 性 。 


3. 数据 流 计算 机 的 指令 结构 

图 14. 1 是 数据 流 计算 机 中 指令 的 结构 示意 图 。 其 指令 主要 由 两 部 分 组 成 : 操作 包 、 
数据 令 牌 。 操 作 包 通常 由 操作 码 一 个 或 几 个 源 操作 数 以 及 一 个 或 几 个 后 继 指 令 地 址 组 
成 。 后 继 指 令 地 址 用 于 组 成 新 的 数据 令 牌 ,以 便 把 本 条 指令 的 运算 结果 送 往 需 要 它 的 目 



































标 指令 。 
操作 包 (operation packet) 数据 令 牌 (data token) 
(a) 指令 组 成 
操作 码 源 操作 数 1 源 操作 数 2 后 继 指 令 地 址 
(b) 操作 包 组 成 
结果 数值 目标 地 址 
(c) 数据 令 牌 组 成 
图 14.1 数据 流 计 算 机 指令 的 组 成 


数据 令 牌 通常 由 结果 数值 和 目标 地 址 等 组 成 ,如 图 14. 1(c) 所 示 。 其 中 ,结果 数值 就 是 
上 条 指令 的 运算 结果 ,而 目标 地 址 则 直接 取 自 上 条 指令 的 后 继 指 令 地 址 。 如 果 一 条 指令 的 


数据 流 计算 机 的 


执行 结果 要 送 往 几 个 目标 地 址 , 则 要 分 别 形成 几 个 数据 令 牌 。 
语言 是 


14.2.2 数据 流程 序 图 和 数据 流 语言 
数据 流 计算 机 的 程序 是 用 数据 流 语言 编写 的 。 最 基本 的 数据 流 


机 器 语言 , 即 数据 流程 序 图 。 
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1. 数据 流程 序 图 


数据 流程 序 图 是 一 种 特殊 的 有 向 图 ,由 多 个 结 点 以 及 连接 这 些 结 点 的 有 向 弧 构 成 。 结 
点 用 圆圈 、 三 角形 、 萎 形 、 椭 圆 等 形状 表示 .其 中 的 符号 表示 进行 什么 操作 。 弧 代表 结 点 之 间 
的 关系 及 令 牌 流向 。 这 种 表示 法 也 称 为 结 点 分 支线 表示 法 。 

J.B. Dennis 和 J. E. Rumbaugh 等 提出 了 用 于 数据 流程 序 图 的 各 种 符号 ( 即 结 点 ) ,并 规 
定 了 相应 的 操作 执行 规则 。 现 对 主要 的 一 些 结 点 简要 介绍 如 下 。 

(1) 复制 操作 结 点 : 可 以 是 数据 的 复制 ,也 可 以 是 控制 量 (布尔 量 ) 的 复制 。 数 据 复制 
的 箭头 是 实心 的 。 如 果 要 表示 控制 量 的 复制 ,只 要 把 箭头 改 为 空心 的 即 可 。 复 制 操作 结 点 
有 时 也 称 连 接 操作 结 点 。 

(2) 运算 操作 结 点 : 主要 包括 常用 的 加 \ 减 、 乘 、 除 、 乘 方 、 开 方 等 算术 运算 及 与 ,或 非 、 
异 或 或 非 等 布尔 逻辑 运算 。 激 发 后 输出 带 相应 操作 结果 的 令 牌 。 

(3) 常数 发 生 器 结 点 : 没有 输入 端 ,只 有 一 条 输出 分 支 。 它 用 于 产生 常数 ,激发 后 输出 
带 常 数 的 令 牌 。 

(4) 判定 操作 结 点 : 对 输入 数据 按 某 种 关系 进行 判断 和 比较 ,然后 在 输出 端 给 出 带 迪 
辑 值 真 (T) 或 假 (F) 的 控制 令 牌 。 

(5) 控制 类 操作 结 点 : 控制 类 操作 结 点 的 激发 条 件 需要 加 入 布尔 控制 端 。 

除了 上 面 所 介绍 的 结 点 分 支线 方法 之 外 ,还 有 一 种 表示 数据 流程 序 图 的 方法 , 称 为 活动 
模 片 表示 法 。 在 采用 活动 模 片 表示 法 的 数据 流程 序 图 中 ,组 成 数据 流程 序 图 的 基本 单位 是 
活动 模 片 。 每 个 活动 模 片 相当 于 结 点 分 支线 表示 法 中 的 一 个 或 几 个 操作 结 点 。 一 个 活动 模 
片 通常 由 4 个 字段 组 成 ,如 图 14.2 所 示 。 





活动 片 标记 | 操作 码 | 操作 数 1 区 2 目标 活动 片 /部 位 号 














图 14.2 活动 模 片 的 结构 


活动 模 片 实际 上 是 结 点 在 数据 流 机 器 内 部 具体 实现 时 的 存储 器 映像 。 比 较 而 言 ,活动 
模 片 表示 法 更 接近 于 常规 计算 机 中 的 机 器 代码 ,能 够 由 数据 流 计算 机 硬件 直接 解释 执行 。 
但 结 点 分 支线 表示 法 更 接近 于 一 般 的 高 级 语言 ,具有 可 读 性 好 、 直 观 等 优点 ,在 程序 设计 中 
被 广泛 采用 。 


2. 数据 流 语言 及 其 性 质 


如 前 所 述 , 数 据 流 程序 图 实际 上 是 数据 流 计算 机 的 机 器 语言 。 其 优点 是 直观 易 懂 ,但 编 
程 效率 很 低 , 难 以 被 一 般 用 户 所 接受 。 因 此 需要 有 适合 于 数据 流 计算 机 的 高 级 语言 。 

目前 ,数据 流 语言 的 研究 还 很 不 成 熟 , 还 没有 形成 像 传 统 高 级 语言 那样 的 规范 版 本 。 有 
的 数据 流 机 就 是 用 传统 的 命令 式 语言 作为 数据 流 计算 机 的 高 级 语言 ,用 专门 的 编译 程序 将 
用 该 高 级 语言 编写 的 程序 转换 成 数据 流程 序 图 。 但 效果 不 是 很 好 。 所 以 研究 和 发 展 新 的 、 
适合 于 数据 流 机 制 的 高 级 语言 是 非常 重要 的 。 

已 经 出 现 的 比较 适合 于 表述 数据 流程 序 的 高 级 语言 有 以 下 两 种 。 

(1) 单 赋值 语言 。 包 括 美 国 加 州 大 学 Irvine 分 校 研 制 的 ID 语言 ,美国 MIT 实验 室 的 
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VAL ,法国 的 LAU 语言 ,英国 曼 切 斯 特大 学 的 SISAL 语言 
(2) 函数 类 语言 。 比 较 著名 的 有 美国 犹他 大 学 研制 的 FP 语言 。 





14.2.3 数据 流 计算 机 结构 

按照 对 数据 令 牌 处 理 方法 的 不 同 ,可 把 数据 流 计算 机 分 为 两 种 : 静态 数据 流 计 算 机 和 
动态 数据 流 计 算 机 。 

1. 静态 数据 流 计算 机 

静态 数据 流 计 算 机 的 结构 如 图 14. 3 所 示 。 







指令 存储 部 件 
ISU 













指令 地 址 






































更 新 部 件 UU 上 -=------=-------- 二 | 取 指 令 部 件 RU 
t T I- 
本 | 
指令 处 理 部 件 下 一 | “可 执行 指令 队列 
PU 一 IQ 
数据 令 牌 


14.3 ”静态 数据 流 计算 机 的 结构 


要 执行 的 数据 流程 序 存放 在 指令 存储 部 件 ISU 中 。 数 据 令 牌 开始 是 存放 在 更 新 部 件 
UU 的 输入 缓冲 器 中 ,UU 根据 数据 令 牌 所 携带 的 目标 地 址 ,把 令 牌 中 的 操作 数 送 往 ISU 中 
相应 指令 的 有 关 位 置 。 当 一 条 指令 所 需要 的 数据 令 牌 全 部 到 达 后 ,这 条 指令 将 被 激活 。 
UU 会 把 这 样 的 指令 的 地 址 传送 给 RU。RU 把 这 些 指令 取出 , 送 到 可 执行 指令 队列 IQ 中 。 
若 PU 中 有 空闲 的 处 理 机 ,分 派 程 序 将 按 先 后 次 序 把 处 理 机 分 配给 等 待 执 行 的 指令 ,使 它们 
并 行 执 行 。 指 令 执 行 后 ,其 结果 将 与 指令 中 给 出 的 后 继 指令 地 址 结合 ,组 成 新 的 数据 令 牌 ， 
并 被 送 入 UU 的 输入 缓冲 器 。 如 此 反复 。 

在 静态 数据 流 计算 机 中 ,数据 令 牌 是 沿 数据 流程 序 图 中 的 有 向 分 支流 向 操作 结 点 的 。 
当 一 个 结 点 的 所 有 输入 分 支线 上 的 数据 令 牌 都 到 达 , 且 输出 分 支线 上 没有 数据 令 牌 时 ,就 可 
以 执行 该 结 点 的 操作 。 这 称 为 点 火 。 另 外 还 规定 ,在 任何 一 个 时 钟 节拍 内 ,在 任何 一 条 分 支 
线 上 只 允许 传送 一 个 数据 令 牌 ,这 样 做 的 好 处 是 不 必 在 数据 令 牌 中 附加 标号 ,使 得 静态 数据 
流 计算 机 的 结构 比较 简单 。 但 对 程序 并 行 性 的 支持 不 够 。 


2. 动态 数据 流 计算 机 


在 动态 数据 流 计算 机 中 ,数据 令 牌 可 以 带 有 标记 , 称 为 带 标 记 的 数据 令 牌 。 数 据 令 牌 的 
标记 唯一 地 确定 了 令 牌 的 状态 及 其 他 相关 信息 。 因 此 , 当 数 据 令 牌 在 数据 流程 序 图 的 有 向 
分 支线 上 流动 时 ,同一 条 分 支线 上 可 以 同时 有 几 个 数据 令 牌 在 移动 。 

典型 的 动态 数据 流 计算 机 的 基本 结构 如 图 14.4 所 示 。 

匹配 部 件 将 处 理 部 件 中 各 处 理 单元 送 来 的 结果 数据 令 牌 赋予 相应 的 标记 ,并 将 流向 同 
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指令 存储 部 件 
人 











匹配 部 件 “上 - -可 成 组 的 令 中 集 -= | 更 新 /指令 部 件 


本 | 
可 执行 指令 队列 
ET 


14.4 动态 数据 流 计 算 机 的 结构 


一 指令 (标记 相符 ) 的 数据 令 牌 匹配 成 对 或 者 组 。 当 一 条 指令 所 需要 的 数据 令 牌 全 部 到 齐 
后 ,该 指令 将 被 激活 。 已 匹配 的 数据 令 牌 组 被 送 往 更 新 / 取 指 令 部 件 , 由 该 部 件 把 需要 它们 
的 指令 从 指令 存储 部 件 中 取出 ,并 把 该 指令 与 数据 令 牌 组 携带 的 操作 数组 成 一 个 操作 包 送 
人 可 执行 指令 队列 ,然后 由 处 理 部 件 执行 。 若 匹配 失败 , 即 指令 所 需要 的 数据 令 牌 没有 全 部 
到 齐 , 则 把 已 到 达 的 数据 令 牌 暂 存在 匹配 部 件 的 缓冲 存储 器 中 , 供 下 次 匹配 时 再 使 用 。 匹 配 
缓冲 存储 器 通常 是 一 个 相 联 存储 器 。 

动态 数据 流 计 算 机 中 给 数据 令 牌 赋予 标记 的 方法 有 利于 最 大 限度 地 开发 程序 中 的 并 行 
性 。 如 果 程 序 是 循环 的 , 则 标记 方法 可 以 区 分 出 不 同 层次 的 迭代 执行 ,实现 它们 的 并 行 
计算 。 

动态 数据 流 计算 机 从 结构 上 可 以 分 为 两 大 类 。 一 类 是 以 MIT 为 代表 的 网 络 型 结构 数 
据 流 计算 机 , 另 一 类 是 以 Manchester 为 代表 的 环 状 结构 数据 流 计算 机 。 下 面 介 绍 其 结构 特 
点 和 工作 原理 等 。 

1) 网 络 型 结构 动态 数据 流 计 算 机 

MIT 动态 数据 流 计 算 机 是 网 络 型 结构 的 典型 代表 。 它 由 N 个 处 理 单元 PE 和 一 个 
NX AN 的 包 交 换 开 关 网 络 组 成 。PE 之 间 通 过 这 个 开关 网 络 进 行 信息 交换 。 每 个 PE 基本 
上 就 是 一 台 完 整 的 处 理 机 ,有 自己 的 存储 器 .算术 逻辑 运算 部 件 、 标 记 匹 配 部 件 等 。 

“等 待 - 匹 配 ? 部 件 将 已 经 接收 到 的 令 牌 暂 时 保存 在 它 的 缓冲 器 中 ,等 待 后 续 令 牌 的 到 
来 。 当 所 有 所 需 的 令 牌 均 已 到 达 , 且 标记 匹配 ,就 将 它们 送 到 取 指 令 部 件 的 缓冲 器 中 。 根 据 
标记 中 的 信息 ,从 程序 /数据 存储 器 中 取出 相应 的 指令 ,然后 形成 包含 操作 码 ,操作 数 和 目的 
地 址 的 操作 包 , 送 到 执行 部 件 去 执行 。 执 行 部 件 中 有 一 个 浮 点 和 逻辑 运算 部 件 以 及 一 个 用 
于 确定 下 一 个 操作 和 目的 地 该 用 哪个 PE 的 硬件 。 

工 结构 存储 器 是 一 个 带 标记 的 专用 存储 器 ,用 于 存放 类 似 于 数组 的 数据 结构 。 如 果 操 
作 数 是 结构 数据 , 则 该 数据 从 工 结构 存储 器 取得 。 工 结构 的 每 一 个 元 素 都 有 一 位 标志 。 当 
读 出 时 , 若 该 元 素 的 标志 为 0, 就 表示 其 值 尚未 产生 , 则 自动 推迟 读 操作 。 使 用 这 种 工 结构 
存储 器 可 以 避免 过 多 的 数组 复制 操作 ,节省 大 量 的 存储 空间 和 辅助 操作 开销 。 

在 运算 部 件 或 存储 器 产生 的 结果 配 上 新 的 标记 和 目的 地 PE 号 后 ,被 送 往 输出 口 。 通 
过 输出 口 经 开关 网 络 送 往 目标 PE。 如 果 目 的 地 PE 就 是 本 PE, 就 直接 送 入 本 PE 的 输入 
口 ,而 不 经 过 开关 网 络 。 为 了 避免 在 PE 各 部 件 中 多 个 通路 传输 数据 时 发 生 冲 突 、 阻 塞 或 死 
锁 , 各 个 部 件 都 设 有 相应 的 缓冲 器 。 
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PE 中 没有 程序 计数 器 ,但 有 一 个 存放 已 激活 指令 的 列表 ,使 已 激活 指令 的 执行 是 无 
序 的 。 


NXN 的 开关 网 络 是 用 福 1ogs N 个 2X2 的 开关 单元 组 成 的 logs N 级 网 络 。 基 本 形式 


与 多 级 互连网 络 类 似 。 在 每 个 开关 入 口 有 一 个 异步 控制 器 ,用 来 控制 不 等 长 的 包 交 换 ; 并 
且 还 有 相应 的 输入 缓冲 器 ; 开关 出 口 处 有 仲裁 线路 ,用 来 解决 可 能 出 现 的 路 径 冲突 。 

2) 环 状 结构 动态 数据 流 计 算 机 

Manchester 动态 数据 流 计算 机 是 环 状 结构 的 典型 代表 ,其 结构 如 图 14. 5 所 示 , 它 由 5 
个 功能 部 件 组 成 , 按 顺 时 针 方 向 进行 连接 ,形成 一 个 环 状 流水 线 。 这 5 个 部 件 是 : 交换 开关 
网 络 , 令 牌 队列 ,匹配 部 件 , 结 点 存储 器 ,处 理 部 件 。 这 种 结构 允许 多 个 令 牌 以 先进 先 出 的 队 
列 形式 同时 存在 于 数据 流程 序 图 的 一 个 弧 上 。 该 数据 流 计算 机 采用 令 牌 包 通信 。 


令 牌 包 

































































自 宿主 机 输入 6 让 关 风 结 did 
Ea 
带 标记 的 牌 
令 牌 包 12 
(96 位 ) 令 牌 队列 
64K X97 
处 理 部 件 
(15 个 处 理 单元 ) 应 
人 包 
匹配 部 件 
64KX97 
节点 存储 器 
”一 一 (可 执行 指令 包 ) 
可 执行 包 (167 位 ) 64 段 X4K 令 牌 组 包 (133 位 ) 











图 14.5 Manchester 动态 数据 流 计算 机 的 结构 


在 Manchester 动态 数据 流 计算 机 中 , 令 牌 主要 由 数值 ,标记 以 及 目标 结 点 地 址 等 几 部 
分 组 成 ,而 指令 则 是 由 操作 码 操作 数 、 标 记 \ 数 据 令 牌 的 目的 指令 (两 个 ) 等 组 成 。 标 记 中 包 
含 三 部 分 信息 : 令 牌 所 属 进程 的 标识 符 , 令 牌 所 在 的 数据 流程 序 图 中 的 弧 ,代表 弧 上 第 几 个 
令 牌 的 迭代 序号 。 

处 理 部 件 由 15 个 功能 相同 的 处 理 单元 PE 组 成 ,这 些 PE 可 并 行 地 执行 指令 。 所 执行 
的 指令 包括 定点 运算 、 浮 点 运算 ,数据 传送 、 打 标记 等 。 每 个 PE 都 有 输入 缓冲 器 和 输出 组 
冲 器 。 

从 开关 网 络 输入 的 数据 令 牌 组 成 一 个 令 牌 包 存 人 令 牌 队列 , 令 牌 队列 按 先进 先 出 的 方 
式 工 作 。 匹 配 部 件 按 照 令 牌 的 标记 对 令 牌 进行 匹配 , 即 把 从 令 牌 队列 中 送 来 的 数据 令 牌 与 
匹配 部 件 中 已 经 存在 的 令 牌 进行 比较 ,看 是 否 具有 相同 的 标记 。 当 一 个 结 点 (指令 ) 所 需 的 
令 牌 全 部 到 达 后 ,该 结 点 即 被 激活 。 这 时 ,将 数据 令 牌 和 匹配 标记 合并 成 一 个 令 牌 组 包 , 送 
往 结 点 (指令 ) 存 储 器 。 该 存储 器 存放 数据 流程 序 。 根 据 目的 结 点 说 明 符 从 结 点 存储 器 中 取 
出 相应 的 指令 ,并 与 令 牌 组 包 携带 的 操作 数组 成 可 执行 包 , 送 到 处 理 部 件 上 执行 。 处 理 部 件 
执行 完 后 ,将 结果 令 牌 输出 , 送 入 8X8 的 交换 开关 网 络 。 
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操作 结果 可 根据 需要 经 交换 开关 网 络 送 往 宿 主机 、 外 围 设备 或 另 一 台数 据 流 计算 机 。 
Manchester 数据 流 计算 机 所 具备 的 高 度 并 行 数据 驱动 能 力 ,使 其 有 很 高 的 处 理 速 度 。 

Manchester 动态 数据 流 计算 机 采用 高 级 数据 流 语言 Lapes 编程 ,这 是 一 种 单 赋值 的 程 
序 设计 语言 ,其 语法 规则 类 似 于 PASCAL 语言 。 


14. 2.4 数据 流 计 算 机 的 评价 


1. 数据 流 计 算 机 的 优点 


1) 高 度 的 操作 并 行 性 

数据 流 计 算 机 可 以 实现 操作 的 高 度 并 行 性 , 它 不 仅 能 够 开发 程序 中 有 规则 的 并 行 性 ,而 
且 可 以 开发 程序 运行 中 隐 含 的 并 行 性 。 

2) 流水 线 异 步 操 作 

与 站“ 诺 依 曼 型 计算 机 不 同 ,数据 流 计算 机 中 的 指令 不 是 引用 操作 数 的 地 址 ,而 是 直接 
使 用 操作 数 本 身 , 所 以 数据 流 计算 机 实现 的 是 无 副作用 的 纯 函 数 型 程序 设计 方法 。 

3) 与 VLSI 技术 相 适 应 

由 于 数据 流 计 算 机 结构 的 基本 组 成 所 具有 的 模块 性 和 均匀 性 正好 与 VLSI 技术 相 适 
应 。 因 此 ,完全 有 可 能 充分 利用 VLSI 技术 ,研制 出 具有 很 高 性 能 价格 比 的 数据 流 计 
算 机 。 

4) 有 利于 提高 程序 设计 效率 

数据 流 计算 机 使 用 的 是 基于 纯 函 数 操作 的 程序 设计 语言 , 它 完 全 握 弃 了 传统 编程 语言 
所 依赖 的 变量 和 变量 赋值 机 制 ,从 而 彻底 消除 了 编程 中 使 用 全 局 变量 和 同名 变量 所 产生 的 
副作用 。 


2. 数据 流 计算 机 的 缺点 


不 过 ,也 有 一 部 分 人 认为 ,上 述 这 些 数 据 流 技术 的 优点 实际 上 只 有 在 理论 化 的 数据 流 计 
算 机 模型 中 才 具 备 , 实 际 的 数据 流 计算 机 为 获得 这 些 优 点 往往 要 付出 巨大 的 代价 ,从 而 使 得 
实际 上 的 数据 流 计 算 机 具有 许多 明显 的 缺点 。 也 许 正 是 由 于 这 些 缺 点 , 才 使 得 到 目前 为 止 ， 
数据 流 计 算 机 发 展 一 直 很 慢 ,更 不 用 说 与 传统 的 计算 机 相 竞 争 了 。 

数据 流 计算 机 的 缺点 如 下 。 

(1) 系统 开销 大 ; 

(2) 不 能 有 效 利用 传统 计算 机 的 研究 成 果 ; 

(3) 数据 流 语言 尚 不 完善 。 


3. 数据 流 计算 机 设计 中 需 解决 的 问题 


综合 上 面 的 论述 可 知 ,数据 流 计算 机 设计 中 需要 解决 以 下 主要 技术 问题 。 

(1) 研制 易于 使 用 ,易于 用 硬件 实现 的 高 级 数据 流 语言 ; 

(2) 研究 程序 如 何 分 解 ,研究 如 何 把 程序 模块 分 配给 各 处 理 部 件 的 算法 ; 

(3) 设计 出 性 能 价格 比 高 的 信息 包 交 换 网 络 , 实 现 资 源 冲 突 的 仲裁 和 数据 令 牌 的 分 配 
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等 大 量 通 信 工 作 ; 

(4) 研究 智能 化 的 数据 驱动 机 构 ; 

(5) 研究 如 何在 数据 流 环境 中 高 效率 地 处 理 复杂 的 数据 结构 ; 

(6) 研究 支持 数据 流 运算 的 存储 系统 和 存储 分 配方 案 ; 

(7) 在 广泛 的 应 用 领域 里 ,对 数据 流 计算 机 的 硬件 和 软件 做 出 性 能 评价 ,估计 各 种 系统 
开销 ; 

(8) 研究 数据 流 计算 机 的 操作 系统 ; 

(9) 开发 数据 流 语言 的 跟踪 调试 工具 。 


习 题 


1. 概念 题 


【 题 14.1】 解释 以 下 名 词 
数据 流 计算 机 数据 驱动 计算 需求 驱动 计算 
数据 令 牌 数据 流程 序 图 


2. 问答 题 


2】 数据 驱动 具有 哪些 特性 ? 

3】 简 述 数据 流 计算 机 指令 的 组 成 。 

4】 VAL 语言 具有 哪些 优点 ? 

5】 简 述 静态 和 动态 数据 流 计算 机 的 主要 区 别 。 

6】 为 什么 数据 流 计算 机 中 通常 要 设置 工 结构 存储 器 ? 
.7】 数据 流 计算 机 有 哪些 优 缺 点 ? 


3， 应 用 题 


【 题 14. 8】〗 用 结 点 分 支线 方法 画 出 求解 

z= Vla+6) Xd/c—e/d 

的 数据 流程 序 图 。 当 一 4.0 一 8 时 , 画 出 该 数据 流程 序 图 的 执行 过 程 。 
【 题 14. 9】 用 结 点 分 支线 方法 画 出 

z 一 (IF z=10 THEN z 一 y ELSE z+y)/y 


【 题 
【是 
【 题 
【是 
【是 
【 题 


心心 必 心心 必 


的 数据 流程 序 图 。 
【 题 14. 10〗 用 活动 模 片 表 示 法 画 出 计算 
x=aXbt+a/b 
的 数据 流程 序 图 。 
【是 14. 11】 利用 单 功能 操作 结 点 实现 一 般 高 级 语言 中 的 条 件 语 句 : 


if true then Gl else G2 


试 画 出 数据 流程 序 图 ,其 中 的 G1 和 G2 都 是 各 自 独立 的 数据 流程 序 图 。 
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【十 14.12】 利用 单 功能 操作 结 点 实现 一 般 高 级 语言 中 的 循环 语句 : 
while P do G 

或 

unti P do G 


试 画 出 数据 流程 序 图 ,其 中 ,P 是 循环 条 件 ,G 是 循环 体 。 


题 解 


1. 概念 题 


【 题 14.1】 解释 以 下 名 词 

数据 流 计 算 机 一 一 它 采 用 数据 驱动 方式 ,根据 数据 的 可 用 人 性 来 决定 指令 的 执行 ,而 不 是 
由 程序 计数 器 来 决定 执行 哪 条 指令 。 这 种 计算 机 能 够 充分 开发 程序 中 的 并 行 性 。 

数据 驱动 计算 一 一 指令 的 执行 不 受 其 他 控制 条 件 的 约束 ,任何 指令 只 要 它 所 需要 的 操 
作 数 全 部 齐备 且 可 用 时 ,就 可 以 同时 执行 。 也 就 是 说 ,指令 执行 可 以 相互 独立 ,操作 结果 可 
以 不 受 指令 执行 顺序 的 影响 。 

需求 驱动 计算 一 一 只 在 当 某 一 个 函数 需要 用 到 某 一 个 自 变量 时 才 驱 动 对 该 自 变量 的 求 
值 操作 。 

数据 令 牌 一 一 用 来 传送 数据 并 激活 指令 ,由 结果 数值 和 目标 地 址 等 组 成 。 其 中 ,结果 数 
值 就 是 上 条 指令 的 运算 结果 ,而 目标 地 址 则 直接 取 自 上 条 指令 的 后 继 指令 地 址 。 

数据 流程 序 图 一 一 蚌 一 种 特殊 的 有 向 图 ,由 多 个 结 点 以 及 连接 这 些 结 点 的 有 向 弧 构 成 。 
结 点 中 的 符号 表示 进行 什么 操作 。 弧 代表 结 点 之 间 的 关系 及 令 牌 流向 。 实 际 上 是 数据 流 计 
算 机 的 机 器 语言 。 


2. 问答 题 


【 题 14.2】 答 ， 

(1) 异步 性 : 只 要 指令 所 需 的 数据 令 牌 都 已 到 达 , 指 令 即 可 独立 地 开始 执行 ,而 不 必 关 
心 其 他 指令 及 数据 的 情况 。 

(2) 并 行 性 : 可 同时 并 行 执行 多 条 指令 。 

(3) 函数 性 : 由 于 不 使 用 共享 的 数据 存储 单元 ,所 以 数据 流程 序 不 会 产生 诸如 改变 存 
储 字 这 样 的 副作用 ,也 就 是 说 数据 流 运算 是 纯 函 数 性 的 。 

(4) 局 部 性 : 运算 过 程 中 所 产生 的 数据 不 是 用 操作 数 的 地 址 来 引用 ,而 是 作为 数据 令 
牌 直接 传送 ,因此 数据 流 运算 没有 产生 长 远 影 响 的 结果 ,其 运算 具有 局 部 性 。 

【是 14.3】 答 : 主要 由 两 部 分 组 成 : 操作 包 、 数 据 令 牌 。 

操作 包 通 常 由 操作 码 ,一 个 或 几 个 源 操作 数 以 及 一 个 或 几 个 后 继 指令 地 址 组 成 。 后 继 
指令 地 址 用 于 组 成 新 的 数据 令 牌 ,以 便 把 本 条 指令 的 运算 结果 送 往 需要 它 的 目标 指令 。 

数据 令 牌 通常 由 结果 数值 和 目标 地 址 等 组 成 。 其 中 ,结果 数值 就 是 上 条 指令 的 运算 结 
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果 , 而 目标 地 址 则 直接 取 自 上 条 指令 的 后 继 指令 地 址 。 

【 题 14.4】 答 : VAL 语言 具有 以 下 优点 。 

(1) 并 行 性 好 。VAL 语言 易于 开发 程序 中 隐 含 的 和 显 式 的 并 行 性 , 它 提供 了 相应 的 语 
句 结构 来 表达 算法 中 的 并 行 成 分 ,从 而 能 够 高 效 地 编写 数据 流程 序 。 

(2) 遵循 单 赋值 规则 。VAL 语言 没有 传统 计算 机 上 所 用 的 变量 的 概念 , 仅 有 数值 的 名 
称 , 运 算 不 产生 副作用 。 单 赋值 使 程序 清晰 ,易于 理解 ,为 程序 的 并 行 执行 提供 了 一 种 新 方法 。 

(3) 有 丰富 的 数据 类 型 。 基 本 数据 类 型 有 : 整 型 . 实 型 .布尔 型 和 字符 型 等 ,结构 类 型 
有 数组 和 记录 等 。 而 且 允 许 数 组 和 记录 之 间 互 相 肉 套 调用 , 髋 套 的 深度 不 限 。 

(4) 是 一 种 强 类 型 语言 。 任 何 函 数 的 自 变量 和 计算 结果 的 数据 类 型 都 要 在 函数 的 首部 
加 以 定义 。 编 译 程序 在 编译 过 程 中 能 够 很 方便 地 检测 出 函数 和 表达 式 中 数据 类 型 发 生 的 

(5) 在 源 程序 中 不 规定 语句 的 执行 顺序 ,没有 GOTO 之 类 的 程序 控制 语句 。 请 句 的 执 
行 顺序 不 影响 最 终 运 算 结 果 。 

(6) 编制 的 程序 具有 模块 化 结构 。 

【 题 14.5】 答 : 静态 数据 流 计算 机 的 数据 令 牌 未 加 标记 , 当 数 据 令 牌 在 数据 流程 序 图 
的 有 向 分 支线 上 流动 时 ,在 任何 一 个 时 钟 节拍 内 ,任何 一 条 分 支线 上 只 允许 传送 一 个 数据 令 
牌 。 静 态 数 据 流 计算 机 的 结构 比较 简单 ,但 对 程序 并 行 性 的 支持 不 够 。 

动态 数据 流 计算 机 的 数据 令 牌 带 有 标记 , 当 数 据 令 牌 在 数据 流程 序 图 的 有 向 分 支线 上 
流动 时 ,同一 条 分 支线 上 可 以 同时 有 几 个 数据 令 牌 在 移动 。 赋 予 标记 的 方法 有 利于 最 大 限 
度 地 开发 程序 中 的 并 行 性 。 如 果 程 序 是 循环 的 , 则 标记 方法 可 以 区 分 出 不 同 层次 的 迭代 执 
行 ,实现 它们 的 并 行 计算 。 

【 题 14.6】 答 : 使 用 工 结构 存储 器 可 以 避免 过 多 的 数组 复制 操作 ,节省 大 量 的 存储 空 
间 和 辅助 操作 开销 。 

【 题 14.7】 答 ， 

(1) 高 度 的 操作 并 行 性 。 

数据 流 计算 机 可 以 实现 操作 的 高 度 并 行 性 , 它 不 仅 能 够 开发 程序 中 有 规则 的 并 行 性 ,而 
且 可 以 开发 程序 运行 中 隐 含 的 并 行 性 。 

(2) 流水 线 异步 操作 。 

数据 流 计算 机 中 的 指令 是 直接 使 用 操作 数 本 身 , 实 现 的 是 无 副作用 的 纯 函 数 型 程序 设 
计 方 法 。 可 以 在 过 程 级 和 指令 级 充分 开发 程序 中 的 异步 并 行 性 ,可 以 把 串 行 计算 问题 用 简 
单 的 方法 展开 成 并 行 计算 问 题 来 处 理 。 

(3) 与 VLSI 技术 相 适 应 。 

数据 流 计算 机 结构 的 基本 组 成 所 具有 的 模块 性 和 均匀 性 正好 与 VLSI 技术 相 适 应 。 其 
中 的 指令 存储 器 数据 令 牌 缓冲 器 、 可 执行 指令 队列 缓冲 器 等 存储 部 件 都 可 以 采用 VLSI 技 
术 制 造 的 存储 阵列 均匀 地 构成 。 处 理 部 件 和 信息 包 开 关 网 络 也 可 以 分 别 用 模块 化 的 标准 单 
元 有 规则 地 连接 构成 。 因 此 ,完全 有 可 能 充分 利用 VLSI 技术 ,研制 出 具有 很 高 性 能 价格 比 
的 数据 流 计算 机 。 

(4) 有 利于 提高 程序 设计 效率 。 

数据 流 计算 机 使 用 的 是 基于 纯 函 数 操作 的 程序 设计 语言 , 它 完 全 握 弃 了 传统 编程 语言 
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所 依赖 的 变量 和 变量 赋值 机 制 , 从 而 彻底 消除 了 编程 中 使 用 全 局 变量 和 同名 变量 所 产生 的 
副作用 。 另 外 ,由 于 函数 程序 设计 语言 有 更 高 的 自动 向 量 识别 能 力 ,也 使 得 机 器 对 数据 流 的 
分 析 和 处 理 更 为 有 效 。 


3. 应 用 题 


【 题 14. 8】 
解 : 数据 流程 序 图 的 执行 过 程 如 图 14.6 所 示 。 


b d 
8 


a 
4 





图 14.6 数据 流程 序 图 的 执行 过 程 


【 题 14. 9】 
解 : 数据 流程 序 图 如 图 14.7 所 示 。 
【 题 14. 10】 
解 : 数据 流程 序 图 如 图 14. 8 所 示 。 


292 计算 机 系统 结构 学 习 指 导 与 题解 (第 2 版 ) 











) | 32 












































每 于 | 区 (| 1 
bp 


图 14.8 数据 流程 序 图 


【 题 14. 11】 

解 : 如 图 14. 9 所 示 ,利用 一 个 复制 结 点 ,一 个 工 门 控 结 点 和 一 个 下 门 控 结 点 实现 起 始 
数据 令 牌 的 两 路 传送 , 它 根 据 起 始 控制 令 牌 所 携带 的 是 真 值 还 是 假 值 把 起 始 数据 令 牌 分 别 
送 往 G1 数据 流程 序 图 或 G2 数据 流程 序 图 ,并 利用 一 个 归并 门 控 结 点 选择 G1 或 G2 数据 
流程 序 图 中 的 一 个 结果 作为 输出 ,选择 的 依据 仍然 是 起 始 控制 令 牌 携带 的 是 真 值 还 是 假 值 。 

【 题 14. 12】 

解 : 如 图 14. 10 所 示 ,为 了 使 数据 流程 序 图 中 的 循环 体 G 能 够 开始 执行 ,在 一 开始 要 输 
入 一 个 起 始 数据 令 牌 和 一 个 起 始 控制 令 牌 ,并 用 一 个 归并 门 控 结 点 取得 循环 体 G 的 输入 数 
据 令 牌 。 在 第 一 次 循环 开始 时 从 外 部 输入 数据 令 牌 ,而 在 以 后 的 各 次 循环 中 都 从 循环 体 本 
身 的 输出 端 取 得 所 需要 的 输入 数据 令 牌 。 在 第 一 次 循环 时 ,由 一 个 荆门 控 结 点 控制 起 始 数 
据 令 牌 是 否 输入 给 循环 体 G。 控 制 方法 是 起 始 控制 令 牌 携带 真 值 还 是 携带 假 值 。 另 外 ,用 
一 个 判定 操作 结 点 根据 循环 结束 条 件 P 产生 的 控制 令 牌 来 控制 循环 的 执行 。 最 后 用 一 个 
开关 门 控 结 点 分 配 每 次 循环 产生 的 结果 数据 令 牌 。 如 果 循 环 还 没有 结束 , 则 判定 操作 结 点 


第 14 章 数据 流 计算 机 293 





P 输出 为 “ 真 ”, 通 过 开关 门 控 结 点 把 数据 令 牌 分 配给 循环 体 G, 继 续 进行 下 一 次 循环 ; 如 果 
循环 结束 , 则 判定 操作 结 点 P 输 出 为 “ 假 ”, 通 过 开关 门 控 结 点 把 结果 数据 令 牌 输出 到 外 部 。 
起 始 数据 令 牌 起 始 控 制 令 牌 












































, 起 始 数据 令 牌 
棕 制 令 牌 
< 
Gl G2 P 
Cw > 
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输出 
图 14.9 数据 流程 序 图 图 14.10 数据 流程 序 图 
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